[Pandas] 자주 사용하는 메소드

Ethan·2022년 5월 22일

AI AIFFEL ML pandas python

인공지능 기초 (feat. AIFFEL)

목록 보기

18/48

pandas는 기본적인 수학/통계 메소드를 가지고 있다.

30분만에 판다스 입문하기
https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html

data.head(), data.tail()

각각 첫 5행과 마지막 5행을 보여준다.
패러미터 값을 주면 몇 행을 출력할 지 지정할 수 있다.

data.columns

DataFrame의 컬럼명을 출력한다.

data.info()

각 컬럼별로 null 값과 자료형을 출력한다.

.describe()

각 컬럼별 기본적인 통계 수치들을 출력한다.
개수(Count), 평균(mean), 표준편차(std), 최솟값(min), 최댓값(max)
4분위수(25%, 50%, 75%)

.isnull()

.isnull()은 결측치 여부를 판별한다. (있으면 True, 없으면 False)

.value_counts()

범주형 데이터 컬럼에서 범주(category)별로 데이터 수를 출력한다.

.sum()

컬럼의 데이터 숫자를 확인할 때 사용한다.
-isnull(), value_counts() 등의 다른 메소드와 함께 사용할 수 있다.

.corr()

컬럼이 다른 컬럼에 대해 갖는 상관관계를 확인할 수 있다.
패러미터를 지정하지 않으면 모든 컬럼 간의 상관관계 계수를 출력하며,
아래와 같이 특정 컬럼끼리 지정해서 사용할 수도 있다.

print(data['컬럼 A'].corr(data['컬럼 B']))

drop()

데이터를 삭제할 때 사용한다.
보통 다음과 같이 특정 컬럼이나 데이터, 또는 조건을 지정해서 사용한다.

data.drop(['Latitude','Longitude','Country','Date','HospitalizedPatients',  'IntensiveCarePatients', 'TotalHospitalizedPatients','HomeConfinement','RegionCode','SNo'], axis=1, inplace=True)

유용한 메소드 정리

count(): NA를 제외한 수를 반환

describe(): 요약 통계를 계산

min(), max(): 최소, 최댓값을 계산

sum(): 합을 계산

mean(): 평균을 계산

median(): 중앙값을 계산

var(): 분산을 계산

std(): 표준편차를 계산

argmin(), argmax(): 최소, 최댓값을 가지고 있는 값을 반환

idxmin(), idxmax(): 최소, 최댓값을 가지고 있는 인덱스를 반환

cumsum(): 누적 합을 계산

pct_change(): 퍼센트 변화율을 계산

재미있게 살고 싶은 대학원생

이전 포스트

[Pandas] DataFrame

다음 포스트

[시각화] IPython 매직 메소드

0개의 댓글