[데이터 전처리] 분포 통계량

Bpius·2023년 10월 6일
0

데이터 EDA & 전처리

목록 보기
12/46
post-thumbnail

백분위수 / 사분위수

해당 분위의 값이 무엇인지 계산한다.
다음과 같은 값이 있을 때
넘파이를 활용하여 백분위수는 np.percentile()로 사분위수는 np.quantile()로 확인할 수 있다. 이름만 다를 뿐 사실상 같은 형식으로 계산한다.

왜도

왜도(skewness)는 분포의 비대칭도를 나타내는 통계량으로 데이터가 왼쪽으로 혹은 오른쪽으로 쏠려있는지 확인할 때 왜도를 계산한다.
다음과 같이 값이 분포되어 있다.
그레프로 나타내면 다음과 같은데
이 때 왜도를 계산하면 다음과 같다.
왼쪽으로 쏠렸을 경우에는 음수를 오른쪽으로 쏠렸을 때 양수를 나타낸다.

첨도

첨도(kurtosis)는 데이터의 분포가 얼마나 뾰족한지, 즉 첨도가 높을 수록 좁은 범위에 많은 값이 몰려있다고 할 수 있다.
다음과 같은 값이 분포되어 있다.

그래프로 나타내면 다음과 같고
첨도를 계산하면 다음과 같다.
데이터가 좁은 곳에 몰려있을 수록 양수의 값을 가진다.

profile
데이터 굽는 타자기

0개의 댓글