[Pandas] 데이터 요약하기 - cheat sheet🔥

Jaeyoung·2022년 10월 21일

Cheat Sheet pandas

👊판다스 뿌셔뿌셔

목록 보기

4/8

목표 설정

Pandas Cheat Sheet 에서 데이터 요약, 기술통계 학습하기
학습 부분
- Summarize Data

기술 통계

기술통계란? 측정이나 실험에서 수집한 자료(data)의 정리, 요약, 해석, 표현 등을 통해 자료의 특성을 규명하는 통계적 방법

데이터프레임을 이루고 있는 정보 요약
df.info() : 메모리 사용량, 각 컬럼별 데이터타입 등을 알 수 있음

데이터프레임의 행, 열의 수
df.shape : (행의수, 열의수) 형식 확인 가능

데이터프레임의 행의 수
len(df)

특정 컬럼의 unique 값에 대한 빈도수
df[컬럼명].value_counts()

특정 컬럼의 unique 값
df[컬럼명].unique()

특정 컬럼의 unique 개수
df[컬럼명].nunique()

수치형 변수에 대한 기술통계
df.describe()
: 수치형 데이터에 대한 count, mean, std, min, 25%, 50%, 75%, max 값 확인

범주형 변수에 대한 기술통계
df.describe(include="object") 또는 df.describe(include="O")
: 범주형 변수에 대한 count, unique, top, freq 값 확인

집계 함수

df.sum(axis, skipna)

행을 기준으로 더하기(defaulf), 열을 기준으로 더하기(axis=1)

skipna(기본값:True) : 결과 계산 시, NA/Null 제외

df.count(axis)

행을 기준으로 Null값 제외 셀의 개수(defaulf)

열을 기준으로 Null값 제외 셀의 개수(axis=1)

df.median() : 중앙값 반환

df.quantile(q, axis) : 요청된 축에 대해 지정된 분위수의 값을 반환

q : 계산할 분위 수 (기본값 : .5) : 0 <= q <= 1

행을 기준 (기본값 : axis=0), 열을 기준 (axis=1)

예) df.quantile([.25, .75]) : 1사분위와 3사분위에 해당하는 값 반환

df.min() : 최솟값

df.max() : 최댓값

df.mean() : 평균

df.var() : 분산

df.std() : 표준편차

참고문헌

Jaeyoung

데이터 분린이:)

이전 포스트

[Pandas] 데이터 인덱싱 및 선택 - cheat sheet🔥

다음 포스트

[Pandas] 데이터 요약하기 - cheat sheet🔥

👊판다스 뿌셔뿌셔

목표 설정

기술 통계

참고문헌

[Pandas] 데이터 인덱싱 및 선택 - cheat sheet🔥

[Pandas] 데이터 재구조화(Melt, Concat) - cheat sheet🔥

0개의 댓글