지난 포스팅에 이어서 계속 CCTV 데이터와 인구 현황 데이터를 합치고 분석해 봅시다.
연도별 데이터는 이제 별 의미가 없기 때문에 삭제하겠습니다.
row 행 데이터를 삭제할 때는 drop() 함수를 사용했었지만, column열 데이터(세로줄)를 삭제할 때는 del 키워드를 사용합니다.
숫자로 인덱스를 구분하는 것보다, unique 한 구별 데이터를 인덱스로 만들어 주는 것이 더 보기 좋습니다.
이러한 습관은 추후에 시각화에도 도움이 됩니다.
set_index 함수를 사용해서 인덱스를 변경할 수 있습니다.
어떤 데이터끼리 비교하는 것이 좋을까?
다양한 접근은 아직은 어려우나, 인구수의 어떤 데이터를 이용해서 CCTV를 비교할지를 결정 지어 주어야 합니다.
비교해 볼 수 있는 데이터는 고령자 비율, 외국인 비율, 인구수로 생각해볼 수 있는데, 어떠한 데이터를 CCTV와 비교할지를 결정 지어 줘야 할지를 결정짓는 것이 상관계수 입니다.
상관계수의 절댓값이 클 수록 두 데이터는 긴밀한 관계를 갖는다고 생각 해 볼 수 있습니다.
상관계수에는 다음과 같은 법칙이 적용됩니다.
- 상관계수 절대값이 0.1 이하면 무시해야 하는 상관관계
- 상관계수 절대값이 0.3 이하면 약한 상관관계
- 상관계수 절대값이 0.7 이하면 뚜렷한 상관관계
상관계수 계산은 매우 어려우나 numpy 모듈의 corrcoef 함수를 이용하면 손쉽게 데이터끼리의 상관관계를 파악할 수 있습니다.
기준 대각선(좌상-우하)을 제외한 나머지 데이터들만 확인하면 됩니다.
계속 이어서 상관 계수를 구해 보겠습니다.
상관계수 분석 결과 고령자 비율과 외국인 비율은 각각 0.2, 0.1 정도로 상관관계가 거의 없다고 판단이 됩니다.
하지만, 인구수와 비교해봤을 때 0.3 이상으로써 약한 상관관계가 존재한다고 말할 수 있을 것 같습니다.
그렇다면 CCTV와 인구수의 관계를 조금 더 들여다보겠습니다.
위의 두 데이터를 표로만 보면 대체 뭘 의미하는지 모르겠죠?
따라서 다음 포스팅부터 시각화에 대한 이야기를 해보겠습니다.
'Programming > 통계 데이터 분석' 카테고리의 다른 글
[Python] pivot_table을 활용해 원하는 기준 만들기 (0) | 2021.04.02 |
---|---|
[Python] CCTV 현황 그래프로 분석하기 (0) | 2021.04.01 |
[Python] 서울시 CCTV data와 인구현황 data 파악하기 (0) | 2021.02.15 |
[Python] Pandas 기본 (통계 데이터 분석) (1) | 2021.02.09 |
[Python] Pandas를 활용한 파이썬에서 csv, excel 파일 읽어오기 (0) | 2021.02.05 |