[Python] Pandas

신은지·2024년 8월 19일

Python

목록 보기

14/23

Pandas

Python에서 R만큼의 강력한 데이터 핸들링 성능을 제공하는 모듈이다.

단일 프로세스에서는 최대 효율을 낸다.

마치 코딩이 가능하고 응용 가능한 Excel 같다.

한글은 encoding 설정이 필수이다.

Pandas는 통상 pd로 import한다.

Pandas의 데이터형을 구성하는 기본은 Series이다.

날짜(시간)를 이용할 수 있다.

Pandas에서 가장 많이 사용하는 데이터형은 DataFrame으로 index와 columns를 지정하면 된다.

DataFrame

df
-df[condition]과 같이 사용하는 것이 일반적
-Pandas의 버전에 따라 조금씩 허용되는 문법이 다름
-인터넷에서 확보한 소스코드를 돌릴 때는 Pandas의 버전을 확인하는 것이 필요
-데이터 변수에서 바로 plot() 명령을 사용 가능
-데이터(컬럼)가 많은 경우, 정렬한 후 그리는 것이 효과적일 때가 있음

df.head()
-앞 부분 5개의 데이터 확인

df.info()
-DataFrame의 기본 정보 확인 (보통 각 컬럼의 크기와 데이터 형태를 확인하는 경우가 많음)

df.describe()
-DataFrame의 통계적 기본 정보를 확인

df.sort_values()
-데이터를 정렬

df["컬럼명"]
-특정 컬럼만 읽기

df[n:m]
-n부터 m-1까지
-단 index나 column의 이름으로 slice하는 경우는 끝을 포함

df.loc[:, ["A", "B"]]
-이름으로도 사용 가능
-Pandas의 보편적인 slice 옵션

df.iloc[숫자]
-iloc 옵션을 이용해서 번호로만 접근

df["컬럼명"].isin(["특정요소1", "특정요소2"])
-특정 요소가 있는지 확인

df[df["컬럼명"].isin(["특정요소1", "특정요소2"])]
-특정 요소가 있는 행만 선택

df.apply(np.cumsum)
-각 컬럼 누적합

del df["컬럼명"]
-특정 컬럼 제거

Pivot Table

index를 여러 개 지정할 수 있다.

values를 지정할 수 있다.

values에 함수를 적용할 수 있다.

default는 평균이다.

aggfunc 옵션은 합산 등의 다른 함수를 적용하거나 개수를 적용할 때(len) 사용한다.

columns는 분류를 지정한다.

fill_value로 NaN에 대한 처리를 지정할 수 있다.

mergins으로 합계를 지정할 수 있다.

iterrows() 함수

Pandas에 잘 맞춰진 반복문용 명령어다.
Pandas DataFrame은 대부분 2차원으로 for문을 사용하려면 n번째라는 지정을 반복해서 가독률이 떨어진다. 그래서 Pandas로 DataFrame으로 반복문을 만들 때 iterrows()라는 옵션을 사용하면 편리하다.
단, 받을 때, Index와 내용으로 나누어 받는 것을 주의해야한다.

CSV, Excel 파일 읽기

통상 csv는 띄어쓰기로 구분이 되므로 read_csv 명령으로 읽기만 해도 된다.

* 이 글은 제로베이스 데이터 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.

신은지

I believe there is no best, only better

이전 포스트

[Python] module에 대한 naming 규칙

다음 포스트

[Python] Pandas

Python

Pandas

DataFrame

Pivot Table

iterrows() 함수

CSV, Excel 파일 읽기

[Python] module에 대한 naming 규칙

[Python] Matplotlib

0개의 댓글