[Pandas] 자주 사용하는 메소드

Ethan·2022년 5월 22일
0
post-custom-banner

pandas는 기본적인 수학/통계 메소드를 가지고 있다.

30분만에 판다스 입문하기
https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html


data.head(), data.tail()

  • 각각 첫 5행과 마지막 5행을 보여준다.
    패러미터 값을 주면 몇 행을 출력할 지 지정할 수 있다.

data.columns

  • DataFrame의 컬럼명을 출력한다.

data.info()

  • 각 컬럼별로 null 값과 자료형을 출력한다.

.describe()

  • 각 컬럼별 기본적인 통계 수치들을 출력한다.
    개수(Count), 평균(mean), 표준편차(std), 최솟값(min), 최댓값(max)
    4분위수(25%, 50%, 75%)

.isnull()

  • .isnull()은 결측치 여부를 판별한다. (있으면 True, 없으면 False)

.value_counts()

  • 범주형 데이터 컬럼에서 범주(category)별로 데이터 수를 출력한다.

.sum()

  • 컬럼의 데이터 숫자를 확인할 때 사용한다.
    -isnull(), value_counts() 등의 다른 메소드와 함께 사용할 수 있다.

.corr()

  • 컬럼이 다른 컬럼에 대해 갖는 상관관계를 확인할 수 있다.
    패러미터를 지정하지 않으면 모든 컬럼 간의 상관관계 계수를 출력하며,
    아래와 같이 특정 컬럼끼리 지정해서 사용할 수도 있다.
print(data['컬럼 A'].corr(data['컬럼 B']))

drop()

  • 데이터를 삭제할 때 사용한다.
    보통 다음과 같이 특정 컬럼이나 데이터, 또는 조건을 지정해서 사용한다.
data.drop(['Latitude','Longitude','Country','Date','HospitalizedPatients',  'IntensiveCarePatients', 'TotalHospitalizedPatients','HomeConfinement','RegionCode','SNo'], axis=1, inplace=True)

유용한 메소드 정리

  • count(): NA를 제외한 수를 반환
  • describe(): 요약 통계를 계산
  • min(), max(): 최소, 최댓값을 계산
  • sum(): 합을 계산
  • mean(): 평균을 계산
  • median(): 중앙값을 계산
  • var(): 분산을 계산
  • std(): 표준편차를 계산
  • argmin(), argmax(): 최소, 최댓값을 가지고 있는 값을 반환
  • idxmin(), idxmax(): 최소, 최댓값을 가지고 있는 인덱스를 반환
  • cumsum(): 누적 합을 계산
  • pct_change(): 퍼센트 변화율을 계산
profile
재미있게 살고 싶은 대학원생
post-custom-banner

0개의 댓글