이번 포스팅에서는 Pandas를 활용한 파이썬에서 csv, excel 파일 읽어오는 방법에 대해서 알아보도록 하겠습니다.
pandas를 이용해 csv 파일을 불러오기 위해서는 아래와 같이 pandas를 먼저 import 해야 합니다.
pandas 모듈을 불러와서 pd 앨리어스를 붙여줍니다.
read_() 함수로 불러오기
엑셀 또는 csv파일을 읽어 올 때는 pandas 모듈의 read_csv나 read_excel 함수를 사용 하면 됩니다.
한글 데이터가 존재한다면 encoding-'utf-8'옵션으로 한글이 깨지지 않도록 신경 써 주어야 합니다.
제일 첫 행을 column이라고 합니다.
pandas를 이용해 불러온 데이터의 컬럼을 확인하기 위해 column을 사용할 수 있습니다.
컬럼명 변경하기
위의 데이터 예제에서 컬럼명이 '기관명' 보다는 '구별' 로 변경하는 것이 더욱 구분하기 쉬운 명칭으로 보입니다.
이때, rename 함수를 사용해 컬럼의 명칭을 바꿀 수 있습니다.
inplace = True 옵션까지 설정하면 pandas로 읽어온 데이터의 컬럼명이 바뀌게 됩니다.
엑셀 파일 불러오기
CSV 파일을 읽어 온 것과 동일하게, 엑셀 파일은 read_excel 함수로 불러옵니다.
마찬가지로 한글이 들어있기 때문에 인코딩 옵션(encoding='utf-8')을 주겠습니다.
case 1 . 데이터의 내용이 좀 이상한 거 같아요...
첫 세줄의 모양새가 조금 이상합니다.
왜냐 하면 원본 엑셀 파일이 저렇게 되어 있기 때문입니다.
전처리가 필요한 이유 중에 가장 큰 이유가 여기서 나타납니다.
내가 원하는 데이터를 가진 파일이네? 불러오기만 하면 끝이다! BUT 모든 원본 데이터가 완벽하다고 생각하는 것은 큰 오산입니다.
값이 없거나, 중간중간 숫자가 아닌 한글이 들어가 있거나, 컬럼이 두줄로 존재하는 등 데이터를 다루기 쉽지 않은 파일들이 존재합니다.
그렇기 때문에 전처리과정이 중요하고 어떤 방식으로 해결하는지 알아보도록 합시다.
원하는 행(row)부터 데이터를 읽어 오기 위해서 header 옵션을 사용하고,
원하는 열(column)을 선택해서 읽어 오기 위해 parse_cols를 사용합니다.
Data Frame column명 바꾸기
다시 한번 rename 함수를 이용해서 불러온 데이터의 컬럼명을 바꿔줍니다.
Pandas 를 이용하여 여러줄의 코드가 아닌, 손쉽게 데이터를 읽고, 편집할 수 있습니다.
다음 포스팅에서 본격적으로 pandas의 기본 사용 방법에 대해 이야기 해 보겠습니다.
'Programming > 통계 데이터 분석' 카테고리의 다른 글
[Python] pivot_table을 활용해 원하는 기준 만들기 (0) | 2021.04.02 |
---|---|
[Python] CCTV 현황 그래프로 분석하기 (0) | 2021.04.01 |
[Python]CCTV 데이터와 인구 현황 데이터를 합치고 분석하기 (0) | 2021.02.18 |
[Python] 서울시 CCTV data와 인구현황 data 파악하기 (0) | 2021.02.15 |
[Python] Pandas 기본 (통계 데이터 분석) (1) | 2021.02.09 |