이번 글에서는 파이썬을 통해 기술통계를 진행하는 방법을 알아볼 것 이다.
전반적인 주요 통계를 확인할 수 있다.
기본 값으로 수치형(Numerical) 칼럼에 대한 통계표를 보여준다.
.describe(include = ‘O’)
- unique: 고유 데이터의 값 개수
- top: 가장 많이 출현한 데이터 개수
- freq: 가장 많이 출현한 데이터의 빈도수
컬럼별 데이터 개수를 확인할 수 있다.
df.count()
특정 컬럼의 데이터를 구하는 경우 아래처럼 코드 작성
df['age'].count()
.count()
와 마찬가지로 사용하면 됨.남자(1)의 나이를 구하는 경우
condition = (df['adult_male'] == True) #남자는 1 여자는 0
df.loc[condition, 'age'].mean() 남자중에서 나이 컬럼의 평
데이터를 오름차순 정렬하여 중앙에 위치한 값이다.
이상치(outlier)가 존재하는 경우, mean()보다 median()을 대표값으로 더 선호한다.(당연!) 아래와 같을때 평균은 너무 커진다;;;
중앙값이 짝수개면 2개의 중앙 데이터의 평균값을 출력한다.
합계를 구한다.
문자열 컬럼은 모든 데이터가 붙어서 출력될 수 있으니 조심하기!
여러 통계함수를 쓸 때 사용!
Quantile 이란?
분위수를 의미함.
주어진 데이터를 동등한 확률구간으로 분할하는 지점.
a.g. 나이가 10%대인 값 = 14
컬럼의 유니크한 값을 보여줌.
최빈값은 가장 많이 출현한 데이터를 의미
corr()로 컬럼별 상관관계를 확인할 수 있다.
df.corr()
survived 컬럼을 예로 -1,1에 가까울 수록 상관관계가 높다고 볼 수 있다.