728x90

SMALL

이번 포스팅에서는 pandas의 pivot_table을 활용해 원하는 기준을 만들어 보도록 하겠습니다.

pivot table을 이용해 우리가 할 수 있는 것?

pivot 테이블의 가장 큰 목적은 우리가 원하는 기준 을 만들어 활용한다는 것입니다.

컴퓨터 부품 판매 데이터를 예제로 사용해보겠습니다.

위의 데이터에서 가게명(Name)으로 정렬해서 확인하고 싶을 때 pivot_table을 활용할 수 있습니다.

Name이 인덱스가 되고, 나머지 값들은 기본적으로 평균값을 표현하게 됩니다.

여기서 인덱스는 이름 말고도 여러 개로 지정해 줄 수 있습니다.

특정 Value만 선택해서 계산을 할 수도 있습니다.

기본적으로 value 자체를 pivot_table로 합치면 평균이 됩니다만, aggfunc(집계 기능) 옵션을 활용하여 합계를 계산할 수도 있습니다.
numpy의 sum(np.sum) 함수를 지정하면 됩니다.

aggfunc를 적절히 이용하면 평균과 합계 등 여러 가지 데이터를 그럴싸하게 보여 줄 수도 있습니다.

pivot table은 언제 써야 할까요?

pivot 테이블 자체는 그리 큰 비중을 차지하지는 않습니다. 하지만 원하는 데이터를 구해내기 위해서 조건문과 반복문을 생각하면 어떻게 될까요?
꽤나 머리 아픈 작업이 될 것 같습니다. 일일이 다 코드로 원하는 데이터를 구해내기보다, pivot table을 사용하여 원하는 데이터를 어떻게 뽑아낼지 테스트해 보고, 구현하는 연습이 많이 필요합니다.

다음 포스팅에는 pivot 테이블을 활용한 범죄 데이터 정리를 해보도록 하겠습니다.

728x90

LIST

'Programming > 통계 데이터 분석' 카테고리의 다른 글

[Python]Seaborn을 이용한 범죄데이터 시각화 (0)	2021.04.06
[Python] pivot 테이블을 활용한 범죄 데이터 (pivot_예제) (0)	2021.04.04
[Python] CCTV 현황 그래프로 분석하기 (0)	2021.04.01
[Python]CCTV 데이터와 인구 현황 데이터를 합치고 분석하기 (0)	2021.02.18
[Python] 서울시 CCTV data와 인구현황 data 파악하기 (0)	2021.02.15

유무디 " 개발도 힐링도 겸사겸사 다같이 좋은 정보는 공유하고자하는 공부 블로그 "

728x90

SMALL

이번 포스팅에서는 앞서 분석한 CCTV 현황을 그래프로 분석을 해도 록 하겠습니다.

드디어 CCTV현황을 그래프로!

드디어 matplotlib를 이용해 데이터를 시각화해 줄 수 있지만, 아직 한글 처리 문제가 남아있습니다. 기본적으로 matplot은 한글 폰트를 지원하지 않기 때문에 matplotlib의 폰트부터 변경시켜 보겠습니다. 순서는 다음과 같습니다.

platform 모듈 임포트 하기
- OS를 구분 해 줄 수 있습니다.
matplotlib 모듈 임포트 하기
- 시각화를 하기 위함이겠죠?
OS를 구분하여 폰트를 각각 설정해 줍니다.

폰트 설정이 끝났으면 다시 한번 결과를 확인해보겠습니다.

pandas 데이터에 바로 plot 명령을 이용해 데이터를 바로 그려 볼 수 있습니다.

예쁘고 쉬운 보기를 위해서 정렬을 해보도록 하겠습니다!

이제! 시각화가 되었으니 다시 한번 분석을 해보도록 하겠습니다. 이번엔 비율입니다!

먼저 시각화가 되어있는 그래프를 보면 CCTV 개수 자체는 강남구가 월등하게 많은 것을 할 수 있습니다.. 또한 가장 CCTV가 많이 없는 그룹도 알 수 있죠? 이어서 인구 대비 CCTV 비율을 계산해보도록 하겠습니다. 간단하게 소계 / 인구 * 100을 하면 될 것 같습니다.

인구수 대비 CCTV 수는 용산구와 종로구가 제일 많은 것을 알 수 있습니다. 송파구는 여전히 인구수로 비교하나, 소계로 비교하나 최하위권을 차지하고 있는 것을 확일 할 수 있습니다.

어느 정도 분석은 된 것 같지만 조금 더 자세히 시각화를 해보도록 하겠습니다. scatter를 활용해 보도록 합시다!

표시한 데이터를 대표할 수 있는 직선을 하나 그려보도록 하겠습니다.

직선의 용도는 인구수가 많아질수록 CCTV의 설치량은 많이 지는 것을 한눈에 알아볼 수 있게 해 줍니다. ( 방금 전의 비율과는 무관합니다~!)

그리고 지금 그려보는 직선은 인구별 CCTV에 대한 기준이 된다고 보시면 됩니다.

이제 이 그래프의 직선은 구별 CCTV의 기준값이 됩니다. 이때, 우리가 기준으로 삼을 수 있는 조선은 이 직선에 가장 근접한 점을 찾아보면 됩니다.

확인을 해보니 대략 300,000만 명의 인구수일 때, 1,100개의 CCTV가 기준이 된다!라고 볼 수 있습니다.

그렇다면 이 직선을 기준으로 해서 멀리 떨어져 있다는 것은 비정상적으로 많다/ 적다 라는 것입니다.

직선보다 위에 있을수록 CCTV가 인구수에 비해 과하게 설치가 되었다
직선보다 아래 있을수록 CCTV가 인구수에 비해 부족하다

직선과 멀리 떨어질수록 생산도 다르게 표현해주고, 기준점에서 많이 벗어난 구의 이름을 표시해 보도록 하겠습니다.

따라서 직선과의 오차를 구하는 코드를 작성하고, 오차가 큰 순으로 데이처를 정렬해서 그래프를 그려보도록 하겠습니다.

결론

직선을 기준으로, 위에 있는 강남구, 양천구, 서초구, 은평구, 용산구는 서울시 전체의 지역의 일반적인 경향보다 CCTV가 많이 설치되어있습니다.

그리고 송파구, 강서구, 중랑구, 마포구, 도봉구는 일반적인 경향보다 CCTV가 적게 설치된 지역입니다.

특히,

강남구는 월등히 많은 CCTV를 보유하고 있다
송파구는 매우 적은 CCTV를 보유하고 있다

라고 결론을 내릴 수 있습니다.

어려우셨나요? 사실 scatter그래프를 이용해서 분석 한 내용은 정말 고급스러운(어려운) 내용입니다.

다음 포스팅에서는 pandas의 pivot_table을 활용해 원하는 기준 만들기를 해보도록 하겠습니다.

728x90

LIST

'Programming > 통계 데이터 분석' 카테고리의 다른 글

[Python] pivot 테이블을 활용한 범죄 데이터 (pivot_예제) (0)	2021.04.04
[Python] pivot_table을 활용해 원하는 기준 만들기 (0)	2021.04.02
[Python]CCTV 데이터와 인구 현황 데이터를 합치고 분석하기 (0)	2021.02.18
[Python] 서울시 CCTV data와 인구현황 data 파악하기 (0)	2021.02.15
[Python] Pandas 기본 (통계 데이터 분석) (1)	2021.02.09

유무디 " 개발도 힐링도 겸사겸사 다같이 좋은 정보는 공유하고자하는 공부 블로그 "

728x90

SMALL

지난 포스팅에 이어 이번 포스팅은 Pandas 고급 사용법인 두 데이터를 병합하는 방법에 대하여 알아보겠습니다.

서로 다른 두 데이터 프레임을 병합해 보겠습니다.

병합을 통해 우리가 원하는 형태의 데이터 프레임을 만들 수 있습니다.

먼저 알아볼 병합 방식인 concat은 데이터를 기준 키(key) 없이 단순히 인덱스나 컬럼을 기준으로 병합을 진행해 줍니다.

위의 데이터가 잘 확인 됐다면 단순히 열 방향(칼럼 기준)으로 합쳐 보겠습니다.
다른 옵션을 부여하지 않으면 자동으로 열 방향으로 병합됩니다.

특별히 keys 옵션을 활용하면 합쳐진 데이터 별 인덱스를 새로 부여할 수 있습니다.
인덱스가 왼쪽에 위치할수록 깊이가 얕습니다. 이 때 인덱스의 깊이를 level 이라고 합니다.

level을 확인해 보겠습니다.

서로 다른 인덱스와 컬럼을 가진 데이터 프레임을 합쳐 보겠습니다.

df1도 확인 해 볼까요?

axis 옵션을 이용하면 행 (row - 가로방향) 기준 또는 열 (column - 세로 방향) 기준을 설정해 줄 수 있습니다.

axis가 0이면 세로 병합 - 컬럼 기준
axis가 1이면 가로 병합 - 인덱스 기준

axis가 1이기 때문에 가로(row)로 병합이 되는 것이 확인이 됩니다.
문제는 NaN 데이터의 존재입니다.

각 데이터 프레림별 해당하는 인덱스에 알맞은 데이터가 존재하지 않기 때문에 표현할 수 없는 값은 NaN으로 표기됩니다.

예를 들어 df1은 원래 인덱스 6번이 없었는데 concat에 의해 병합되면서 인덱스가 부여가 되었습니다.

하지만, 6번 인덱스에 표현할 값이 없기 때문이고, 2번 인덱스에는 표현할 값이 있기 때문에 NaN 으로 처리되지 않습니다.

마찬가지로 df4는 인덱스 0번과 1번에 데이터가 없었기 때문에 데이터가 NaN으로 처리되고 있는 것입니다.

concat에 join='inner' 옵션을 부여하면 서로 공통적인 인덱스를 가진 행만 병합이 됩니다.

따라서 공통 인덱스가 아닌 행은 버리게 됩니다.

df1, df4의 공통 인덱스인 2번과 3번만 병합 되었습니다.

join_axes 옵션을 이용하면 기준 데이터 프레임의 인덱스를 지정해줄 수도 있습니다.
이는 합쳐지는 데이터 프레임에 기준 데이터 프레임과 동일한 인덱스가 없으면 해당 row는 버립니다.

기존 인덱스를 무시하고 합쳐지고 나서 새로운 인덱스를 부여하려면ignore_index=True 옵션을 사용하면 됩니다.
이번엔 세로 방향(row)으로 합쳐 보겠습니다.

key가 되는 데이터를 기준으로 합쳐주는 merge

concat은 두 개의 데이터 프레임에 공통된 key가 되는 컬럼이 없을 때 사용할 수 있으나, merge는 두 개의 데이터 프레임에 공통으로 묶어 줄 수 있는 key값이 있을 때 사용 할 수 있습니다.

이제부터 공통으로 존재하는 칼럼인 key를 기준으로 merge 기준을 설정하는 on 옵션을 사용하여 공통된 key에 대해서만 합치게 만들어 보겠습니다.

서로 동시에 같이 존재하는 키값인 K0, K2, K3만 합쳐진다. 서로간에 없는 키값에 대한 row는 버린다

how 옵션을 활용하여 기준이 되는 데이터 프레임을 지정할 수도 있습니다.

left 데이터 프레임이 기준이 된다. right에는 없는 K4에 대한 값은 NaN 처리

right 데이터 프레임이 기준이 된다. left에는 없는 K1에 대한 값은 NaN 처리

merge 했을 때 키값이 없더라도 일단 행을 채우고 싶다면(합집합처럼)how='outer'를 사용할 수 있습니다.
참고로, how='inner' 옵션은 첫 번째 merge처럼 공통된 키값에 대한 요소만을 갖습니다.

여기까지 Pandas의 고급 사용법 중 하나인 서로 다른 두 데이터 프레임을 병합해 보았습니다.

다음 포스팅부터는 이어서 CCTV 데이터와 인구현황 데이터를 합치고 분석해보도록 하겠습니다.

728x90

LIST

'Programming > Python' 카테고리의 다른 글

[Python] Seaborn을 활용한 시각화 (+예제) (0)	2021.04.05
[Python] Matplotlib를 활용한 데이터 시각화 (0)	2021.02.19
[Python] Pandas DataFrame #pandas 기초 .01 (DataFrame 생성, 정제 및 준비, 삭제, Data 내보내기) (1)	2021.02.04
[Python]Data Visualisation # 시각화 기초 (Plot, Bar) (1)	2021.02.03

유무디 " 개발도 힐링도 겸사겸사 다같이 좋은 정보는 공유하고자하는 공부 블로그 "

728x90

SMALL

이번 포스팅에서는 pandas의 기본 사용 방법에 대해서 이야기해보겠습니다.

파이썬 데이터 분석에는 pandas 사용 빈도가 매우 높습니다.

pandas는 기복적으로 python에서 데이터를 읽어와서 손쉽게 활용할 수 있게 해주는 모듈입니다.

이때 불러온 데이터를 데이터 프레임(Data Frame)이라고 합니다.

numpy - 통계 수식 등 수학에 많이 사용되는 라이브러리 -> pandas 와 numpy는 같이 쓰일 때가 많다.

Series는 pandas의 가장 기본적인 자료형입니다.

list 형태로 데이터를 구성하여 data frame을 간단하게 만들 수 있습니다.

pandas의 series 자료형은 파이썬의 리스트로 이루어진 여러 데이터를 한꺼번에 관리 할 수 있다.

날짜 데이터 생성하기

data_range() 함수를 이용하여 날짜를 생성/수정할 수도 있습니다.

시작할 기본 날짜를 지정하고 periods옵션을 이용해 며칠간의 데이터를 발생시킬 것인지 지정해 줄 수 있습니다.

Data Frame 직접 생성하기

데이터 프레임을 직접 생성할 때 필요한 여러 가지 옵션들에 대해 간단히 정리하겠습니다.

첫 번째 인자에는 데이터 프레임을 채울 데이터가 입력됩니다.

iterable 자료구조로 만들어 낼 수 있습니다.(member를 하나씩 차례로 반환 가능한 object - list, str, tuple...)
index 옵션은 데이터 프레임의 인덱스로 지정할 값을 지정합니다.
columns 옵션은 데이터 프레임에서 사용할 컬럼들이 list 형태로 지정됩니다.

index 란 데이터 프레임의 행마다 순서대로 붙어있는 구분자를 의미합니다.

head() 함수를 사용하여 원하는 데이터만 확인할 수 있습니다.

데이터 프레임의 정보 확인하기

index : 데이터 프레임의 인덱스 확인

columns : 데이터 프레임의 컬럼 확인

values : 데이터 프레임의 내부 값 확인하기

info() : 데이터 프레임의 간단한 개요 확인하기

describe() : 통계적 개요 확인하기

데이터 개수 (count), 평균 (mean), 최솟값(min), 최댓값(max) 등

데이터 정렬(sort)

sort_values() 함수를 사용해 정렬을 할 수 있습니다.

이때 필요한 옵션은

by : 정렬 기준으로 삼을 컬럼을 지정
ascending : 내림차순(False), 오름차순(True) 지정

데이터 선택 확인

Data Frame에 원하는 컬럼 이름을 넣으면 Series 형태로 해당 컬럼의 데이터가 보입니다.

슬라이스 기법을 활용해서 출력 데이터 범위 지정하기

slice( [ start : end : step ] )을 데이터 프레임에 적용하면 원하는 범위의 데이터를 손쉽게 확인할 수 있습니다.

오프셋이 아닌 인덱스의 이름으로도 슬라이스가 가능합니다.

특정 위치의 데이터 확인하기 loc

특정 위치(location)의 데이터만 확인하고 싶을 때는 loc 함수를 사용할 수 있습니다.
loc 함수는 데이터 분석에서 정말 많이 이용되는 함수입니다.
첫 번째 인자는 행(row)을 뜻하고, 두 번째 인자는 열(column)을 뜻합니다.

dates 변수의 첫 번째 값을 활용해 해당하는 위치의 값 보기

직접 날짜를 지정해서 해당 날짜의 데이터를 확인하기

loc를 이용해 Mon, Wed 컬럼의 데이터들만 확인해 보겠습니다

이번에는 행에다가도 범위를 지정해 보겠습니다

물론 날짜를 직접 지정해 볼 수도 있습니다

또는, 인덱스를 생성할 때 정의했던 변수를 사용해 볼 수도 있습니다

dates[0]의 Mon, Tue 컬럼 확인. 컬럼을 리스트로 넣지 않으면 값만 확인 할 수 있습니다.

loc는 데이터의 값을 사용, iloc은 행과 열의 번호를 이용할 수 있습니다.

데이터 프레임이 가지고 있는 정확한 행, 열 이름을 정확히 모를 때는 번호(오프셋)를 사용해서 범위를 지정할 수 있습니다.

컬럼 선택을 다음과 같이도 할 수 있습니다.

데이터를 복사할 때는 copy() 함수를 사용

파이썬은 모두 객체죠?

할당과 복사를 다시 떠올려 보세요.

' = ' 만 사용하면 기존 객체가 변수에 할당됩니다.
따라서 copy() 메소드를 활용해 복사를 해야 합니다.

데이터 존재 유무 판단할 때는 isin 함수를 사용

현재 다루고 있는 데이터 프레임에 데이터가 존재하는지, 존재하지 않는지 True, False로 구분할 수 있습니다.
추후 데이터 분석 시에 조건으로써 활용될 수 있습니다.

isin을 조건으로써 활용하여 조건에 맞는 데이터만 가지고 와 보겠습니다

'Fri' column에 'one'과 'two'가 존재하는 row만 가져오기

데이터 프레임에서 간단한 통계 형태로 데이터를 확인할 때는 apply() 함수를 활용

numpy 모듈과 같이 사용하면 간단하게 여러 통계적 데이터를 확인할 수 있습니다.

꼭 numpy 모듈이 아니더라도 우리가 직접 람다 함수를 만들어서 결과물을 확인 할 수도 있습니다.

최댓값 - 최솟값 ( 데이터들의 거리 ) 구하기

파이썬 데이터 분석을 위한 데이터 프레임을 pandas를 사용하여 간단하게 활용해보았습니다.

다음 포스팅에서 본격적으로 데이터 분석을 시작해 보겠습니다.

CCTV와 서울시 인구현황 예제로 시작하겠습니다

728x90

LIST

'Programming > 통계 데이터 분석' 카테고리의 다른 글

[Python] pivot_table을 활용해 원하는 기준 만들기 (0)	2021.04.02
[Python] CCTV 현황 그래프로 분석하기 (0)	2021.04.01
[Python]CCTV 데이터와 인구 현황 데이터를 합치고 분석하기 (0)	2021.02.18
[Python] 서울시 CCTV data와 인구현황 data 파악하기 (0)	2021.02.15
[Python] Pandas를 활용한 파이썬에서 csv, excel 파일 읽어오기 (0)	2021.02.05

유무디 " 개발도 힐링도 겸사겸사 다같이 좋은 정보는 공유하고자하는 공부 블로그 "

728x90

SMALL

이번 포스팅에서는 Pandas를 활용한 파이썬에서 csv, excel 파일 읽어오는 방법에 대해서 알아보도록 하겠습니다.

pandas를 이용해 csv 파일을 불러오기 위해서는 아래와 같이 pandas를 먼저 import 해야 합니다.

pandas 모듈을 불러와서 pd 앨리어스를 붙여줍니다.

read_() 함수로 불러오기

엑셀 또는 csv파일을 읽어 올 때는 pandas 모듈의 read_csv나 read_excel 함수를 사용 하면 됩니다.

한글 데이터가 존재한다면 encoding-'utf-8'옵션으로 한글이 깨지지 않도록 신경 써 주어야 합니다.

제일 첫 행을 column이라고 합니다.

pandas를 이용해 불러온 데이터의 컬럼을 확인하기 위해 column을 사용할 수 있습니다.

컬럼명 변경하기

위의 데이터 예제에서 컬럼명이 '기관명' 보다는 '구별' 로 변경하는 것이 더욱 구분하기 쉬운 명칭으로 보입니다.
이때, rename 함수를 사용해 컬럼의 명칭을 바꿀 수 있습니다.
inplace = True 옵션까지 설정하면 pandas로 읽어온 데이터의 컬럼명이 바뀌게 됩니다.

엑셀 파일 불러오기

CSV 파일을 읽어 온 것과 동일하게, 엑셀 파일은 read_excel 함수로 불러옵니다.

마찬가지로 한글이 들어있기 때문에 인코딩 옵션(encoding='utf-8')을 주겠습니다.

case 1 . 데이터의 내용이 좀 이상한 거 같아요...

첫 세줄의 모양새가 조금 이상합니다.

왜냐 하면 원본 엑셀 파일이 저렇게 되어 있기 때문입니다.

전처리가 필요한 이유 중에 가장 큰 이유가 여기서 나타납니다.

내가 원하는 데이터를 가진 파일이네? 불러오기만 하면 끝이다! BUT 모든 원본 데이터가 완벽하다고 생각하는 것은 큰 오산입니다.

값이 없거나, 중간중간 숫자가 아닌 한글이 들어가 있거나, 컬럼이 두줄로 존재하는 등 데이터를 다루기 쉽지 않은 파일들이 존재합니다.

그렇기 때문에 전처리과정이 중요하고 어떤 방식으로 해결하는지 알아보도록 합시다.

원하는 행(row)부터 데이터를 읽어 오기 위해서 header 옵션을 사용하고,
원하는 열(column)을 선택해서 읽어 오기 위해 parse_cols를 사용합니다.

Data Frame column명 바꾸기

다시 한번 rename 함수를 이용해서 불러온 데이터의 컬럼명을 바꿔줍니다.

Pandas 를 이용하여 여러줄의 코드가 아닌, 손쉽게 데이터를 읽고, 편집할 수 있습니다.

다음 포스팅에서 본격적으로 pandas의 기본 사용 방법에 대해 이야기 해 보겠습니다.

728x90

LIST

'Programming > 통계 데이터 분석' 카테고리의 다른 글

[Python] pivot_table을 활용해 원하는 기준 만들기 (0)	2021.04.02
[Python] CCTV 현황 그래프로 분석하기 (0)	2021.04.01
[Python]CCTV 데이터와 인구 현황 데이터를 합치고 분석하기 (0)	2021.02.18
[Python] 서울시 CCTV data와 인구현황 data 파악하기 (0)	2021.02.15
[Python] Pandas 기본 (통계 데이터 분석) (1)	2021.02.09

유무디 " 개발도 힐링도 겸사겸사 다같이 좋은 정보는 공유하고자하는 공부 블로그 "

728x90

SMALL

pandas는 dataframe을 주로 다루기 위한 라이브러리이며, dataframe을 자유롭게 가공할 수 있습니다.

이번 포스팅에서는 파이썬을 활용한 데이터 분석에서 가장많이 활용되는 Data Analysis Library인 pandas에 대해서 알아보도록 하겠습니다. (DataFrame 생성, 정제 및 준비, 삭제, Data 내보내기)

pandas는 크게 세가지의 자료구조를 지원하고 있습니다.

1차원 자료구조인 Series, 2차원 자료구조인 DataFrame, 그리고 3차원 자료구조인 Panel을 지원하는데 그 중, 2차원 자료구조로 행과 열이 있는 테이블 데이타(Tabular Data)를 공부해 봅시다.

Data 분석을 위한 lib

DataFrame Create

CRUD in Dataframe

CRUD는 대부분의 컴퓨터 소프트웨어가 가지는 기본적인 데이터 처리 기능인 Create(생성), Read(읽기), Update(갱신), Delete(삭제)를 묶어서 일컫는 말이다.

사용자 인터페이스가 갖추어야 할 기능(정보의 참조/검색/갱신)을 가리키는 용어로서도 사용된다.

주로 Database 에서 사용되는 말이지만, 생각해보면 입력된 데이터로부터 어떤 처리과정을 거쳐도 CRUD는 다 적용되는것 같아서 저는 모든 프로그밍 언어를 배울때 중요한 기본기로 봅니다.

# CREATE

# UPDATE

# DELETE

키값 or 연속적인 키값을 도출하기

df.head() / df.tail() -> sample data 출력하기

보기의 예제는 data의 크기가 작아서 한눈에 보기가 쉽지만, big data를 가져오면 10000개가 넘는 row를 가진 dataframe들이 많습니다. 그때, 가장 기본적으로 확인해야하는것이 sample data를 출력하여 data가 가진 정보를 분석하는 것입니다.

df = pd.DataFrame(c).T 전치행렬, 컬럼명 변경

.T (전치 행렬) 를 사용하지 않는 경우 columns 의 갯수를 맞춰주면된다

Pandas를 이용한 DATA 내보내기

DataFrame 생성하여 쉼표로 구분된 형식의 새로운csv파일 만들기

파일을 생성하는 방법

숫자를 수로 사용 - 파일을 분리 혹은 수정본을 위해 구분하여 사용합니다.

숫자 순차를 사용하는 이유 - 외부에 있는 파일을 읽을떄 일반적으로 많이 사용합니다.

파일을 생성하지 않고 Test

sys 모듈 : python interpreter 와 관련된 정보와 기능을 제공

...,None,... 사이에 None 값 replace

DataFrame 안에 값이 없을 경우

NaN 값으로 대체되어 출력

DATA 정제 및 준비

결측데이터 여부 확인

결측데이터가 있을때 결측치 채우기

df.to_csv(sys.stdout, na_rep='호랑이') 파일내보내기시 결측값 대처하기

누락된 데이터 골라내기

데이터 변형

데이터 치환

728x90

LIST

'Programming > Python' 카테고리의 다른 글

[Python] Seaborn을 활용한 시각화 (+예제) (0)	2021.04.05
[Python] Matplotlib를 활용한 데이터 시각화 (0)	2021.02.19
[Python] 두개 이상의 데이터 프레임 병합 - concat 이용하기 (0)	2021.02.18
[Python]Data Visualisation # 시각화 기초 (Plot, Bar) (1)	2021.02.03

유무디 " 개발도 힐링도 겸사겸사 다같이 좋은 정보는 공유하고자하는 공부 블로그 "

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

pandas

pivot table을 이용해 우리가 할 수 있는 것?

pivot table은 언제 써야 할까요?

'Programming > 통계 데이터 분석' 카테고리의 다른 글

드디어 CCTV현황을 그래프로!

이제! 시각화가 되었으니 다시 한번 분석을 해보도록 하겠습니다. 이번엔 비율입니다!

결론

'Programming > 통계 데이터 분석' 카테고리의 다른 글

key가 되는 데이터를 기준으로 합쳐주는 merge

'Programming > Python' 카테고리의 다른 글

파이썬 데이터 분석에는 pandas 사용 빈도가 매우 높습니다.

Series는 pandas의 가장 기본적인 자료형입니다.

날짜 데이터 생성하기

Data Frame 직접 생성하기

데이터 프레임의 정보 확인하기

데이터 정렬(sort)

데이터 선택 확인

슬라이스 기법을 활용해서 출력 데이터 범위 지정하기

특정 위치의 데이터 확인하기 loc

loc는 데이터의 값을 사용, iloc은 행과 열의 번호를 이용할 수 있습니다.

데이터를 복사할 때는 copy() 함수를 사용

데이터 존재 유무 판단할 때는 isin 함수를 사용

데이터 프레임에서 간단한 통계 형태로 데이터를 확인할 때는 apply() 함수를 활용

'Programming > 통계 데이터 분석' 카테고리의 다른 글

read_() 함수로 불러오기

컬럼명 변경하기

엑셀 파일 불러오기

case 1 . 데이터의 내용이 좀 이상한 거 같아요...

Data Frame column명 바꾸기

'Programming > 통계 데이터 분석' 카테고리의 다른 글

Pandas를 이용한 DATA 내보내기

DATA 정제 및 준비

'Programming > Python' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역