[Pandas] 데이터 요약하기 - cheat sheet🔥
목표 설정
- Pandas Cheat Sheet 에서 데이터 요약, 기술통계 학습하기
- 학습 부분
기술 통계
- 기술통계란? 측정이나 실험에서 수집한 자료(data)의 정리, 요약, 해석, 표현 등을 통해 자료의 특성을 규명하는 통계적 방법
- 데이터프레임을 이루고 있는 정보 요약
df.info()
: 메모리 사용량, 각 컬럼별 데이터타입 등을 알 수 있음
- 데이터프레임의 행, 열의 수
df.shape
: (행의수, 열의수) 형식 확인 가능
- 데이터프레임의 행의 수
len(df)
- 특정 컬럼의 unique 값에 대한 빈도수
df[컬럼명].value_counts()
- 특정 컬럼의 unique 값
df[컬럼명].unique()
- 특정 컬럼의 unique 개수
df[컬럼명].nunique()
- 수치형 변수에 대한 기술통계
df.describe()
: 수치형 데이터에 대한 count, mean, std, min, 25%, 50%, 75%, max 값 확인
- 범주형 변수에 대한 기술통계
df.describe(include="object")
또는 df.describe(include="O")
: 범주형 변수에 대한 count, unique, top, freq 값 확인
- 집계 함수
df.sum(axis, skipna)
- 행을 기준으로 더하기(defaulf), 열을 기준으로 더하기(axis=1)
- skipna(기본값:True) : 결과 계산 시, NA/Null 제외
df.count(axis)
- 행을 기준으로 Null값 제외 셀의 개수(defaulf)
- 열을 기준으로 Null값 제외 셀의 개수(axis=1)
df.median()
: 중앙값 반환
df.quantile(q, axis)
: 요청된 축에 대해 지정된 분위수의 값을 반환
- q : 계산할 분위 수 (기본값 : .5) : 0 <= q <= 1
- 행을 기준 (기본값 : axis=0), 열을 기준 (axis=1)
예) df.quantile([.25, .75])
: 1사분위와 3사분위에 해당하는 값 반환
df.min()
: 최솟값
df.max()
: 최댓값
df.mean()
: 평균
df.var()
: 분산
df.std()
: 표준편차
참고문헌