728x90
반응형
SMALL
728x90
반응형
LIST
728x90
반응형
SMALL

pandas는 dataframe을 주로 다루기 위한 라이브러리이며, dataframe을 자유롭게 가공할 수 있습니다.

 

이번 포스팅에서는 파이썬을 활용한 데이터 분석에서 가장많이 활용되는 Data Analysis Library인 pandas에 대해서 알아보도록 하겠습니다. (DataFrame 생성, 정제 및 준비, 삭제, Data 내보내기)

 

pandas는 크게 세가지의 자료구조를 지원하고 있습니다.

1차원 자료구조인 Series, 2차원 자료구조인 DataFrame, 그리고 3차원 자료구조인 Panel을 지원하는데 그 중, 2차원 자료구조로 행과 열이 있는 테이블 데이타(Tabular Data)를 공부해 봅시다.

 

  • Data 분석을 위한 lib

  • DataFrame Create

  • CRUD in Dataframe

CRUD는 대부분의 컴퓨터 소프트웨어가 가지는 기본적인 데이터 처리 기능인 Create(생성), Read(읽기), Update(갱신), Delete(삭제)를 묶어서 일컫는 말이다.

사용자 인터페이스가 갖추어야 할 기능(정보의 참조/검색/갱신)을 가리키는 용어로서도 사용된다.

주로 Database 에서 사용되는 말이지만, 생각해보면 입력된 데이터로부터 어떤 처리과정을 거쳐도 CRUD는 다 적용되는것 같아서 저는 모든 프로그밍 언어를 배울때 중요한 기본기로 봅니다.

 

# CREATE

# READ

# UPDATE

# READ

# DELETE

# READ

  • 키값 or 연속적인 키값을 도출하기

===== 구분선 은 보기 편하시길바라며 ... 햏

  • df.head() / df.tail() -> sample data 출력하기

보기의 예제는 data의 크기가 작아서 한눈에 보기가 쉽지만, big data를 가져오면 10000개가 넘는 row를 가진 dataframe들이 많습니다. 그때, 가장 기본적으로 확인해야하는것이 sample data를 출력하여 data가 가진 정보를 분석하는 것입니다.

  • df = pd.DataFrame(c).T 전치행렬, 컬럼명 변경

     

     

.T (전치 행렬) 를 사용하지 않는 경우 columns 의 갯수를 맞춰주면된다

Pandas를 이용한 DATA 내보내기

  • DataFrame 생성하여 쉼표로 구분된 형식의 새로운csv파일 만들기

print(df)
print(db)

  • 파일을 생성하는 방법

숫자를 수로 사용 - 파일을 분리 혹은 수정본을 위해 구분하여 사용합니다.

 

숫자 순차를 사용하는 이유 - 외부에 있는 파일을 읽을떄 일반적으로 많이 사용합니다.

 

for문을 사용하면 여러개의 파일을 한번에 생선할 수 있다.

 

  • 파일을 생성하지 않고 Test

sys 모듈 : python interpreter 와 관련된 정보와 기능을 제공
sys 모듈을 통해 파일생성을 하지 않고 data를 볼수있다.

 

  • ...,None,... 사이에 None 값 replace

NULL값 대신 다른 문자나 숫자로 대체도 가능하다

  • DataFrame 안에 값이 없을 경우

NaN 값으로 대체되어 출력


DATA 정제 및 준비

  • 결측데이터 여부 확인

  • 결측데이터가 있을때 결측치 채우기

df.to_csv(sys.stdout, na_rep='호랑이') 파일내보내기시 결측값 대처하기

  • 누락된 데이터 골라내기

  • 데이터 변형

  • 데이터 치환

728x90
반응형
LIST

+ Recent posts