Programming/통계 데이터 분석

[Python]CCTV 데이터와 인구 현황 데이터를 합치고 분석하기

Yuja_k 2021. 2. 18. 13:19
728x90
반응형
SMALL

지난 포스팅에 이어서 계속 CCTV 데이터와 인구 현황 데이터를 합치고 분석해 봅시다.

CCTV_Seoul 데이터 프레임과 pop_Seoul 데이터 프레임 합친다


연도별 데이터는 이제 별 의미가 없기 때문에 삭제하겠습니다.
row 행 데이터를 삭제할 때는 drop() 함수를 사용했었지만, column열 데이터(세로줄)를 삭제할 때는 del 키워드를 사용합니다.

숫자로 인덱스를 구분하는 것보다, unique 한 구별 데이터를 인덱스로 만들어 주는 것이 더 보기 좋습니다.

이러한 습관은 추후에 시각화에도 도움이 됩니다.
set_index 함수를 사용해서 인덱스를 변경할 수 있습니다.

어떤 데이터끼리 비교하는 것이 좋을까?

다양한 접근은 아직은 어려우나, 인구수의 어떤 데이터를 이용해서 CCTV를 비교할지를 결정 지어 주어야 합니다.
비교해 볼 수 있는 데이터는 고령자 비율, 외국인 비율, 인구수로 생각해볼 수 있는데, 어떠한 데이터를 CCTV와 비교할지를 결정 지어 줘야 할지를 결정짓는 것이 상관계수 입니다.
상관계수의 절댓값이 클 수록 두 데이터는 긴밀한 관계를 갖는다고 생각 해 볼 수 있습니다.
상관계수에는 다음과 같은 법칙이 적용됩니다.

  • 상관계수 절대값이 0.1 이하면 무시해야 하는 상관관계
  • 상관계수 절대값이 0.3 이하면 약한 상관관계
  • 상관계수 절대값이 0.7 이하면 뚜렷한 상관관계

상관계수 계산은 매우 어려우나 numpy 모듈의 corrcoef 함수를 이용하면 손쉽게 데이터끼리의 상관관계를 파악할 수 있습니다.

고령자 비율과 소계의 상관계수 구하기

기준 대각선(좌상-우하)을 제외한 나머지 데이터들만 확인하면 됩니다.

계속 이어서 상관 계수를 구해 보겠습니다.

외국인 비율과 소계의 상관계수 구하기
인구수와 소계의 상관계수 구하기

상관계수 분석 결과 고령자 비율과 외국인 비율은 각각 0.2, 0.1 정도로 상관관계가 거의 없다고 판단이 됩니다.
하지만, 인구수와 비교해봤을 때 0.3 이상으로써 약한 상관관계가 존재한다고 말할 수 있을 것 같습니다.

 

그렇다면 CCTV와 인구수의 관계를 조금 더 들여다보겠습니다.

위의 두 데이터를 표로만 보면 대체 뭘 의미하는지 모르겠죠?

따라서 다음 포스팅부터 시각화에 대한 이야기를 해보겠습니다.

728x90
반응형
LIST