[데이터 전처리] 대표 통계량

Bpius·2023년 10월 6일
0

데이터 EDA & 전처리

목록 보기
10/46
post-thumbnail

산술 평균

k번째까지 관측치 합 / 전체 n개 관측치로 나타낼 수 있다.

각각의 관측치 값은 가중치가 같기에 매우 작은 값이나 매우 큰 값에 영향을 많이 받는다.

조화 평균

주어진 수들의 역수의 산술 평균의 역수를 말하며, 전체 n개 관측치 / ( 1 / 각각의 관측치)의 합로 나타낼 수 있다.
평균 속도를 확인할 때 자주 쓰인다.

절사 평균

매우 큰 값이나 작은 값에 영향을 많이 받는 산술 평균과는 달리, 가장 작은 값 혹은 큰 값을 제외하고 계산을 하며 a부터 1-a의 범위에 속하는 데이터들에 대해서만 평균을 내는 것을 말한다.
평균이 200만원이고 표준 편차가 50만원인 정규 분포의 평균은 195만원인 아래와 같은데,소득이 높은 한 사람이 추가가 되면 아래와 같이 1184만원으로 평균값이 많이 오른다.
scipy의 trim_mean(절사 평균)을 사용하여 이상치의 값에 영향을 받지 않도록 한다.

최빈값

한 변수가 가장 많이 취한 값으로 범주형 변수에 대해서만 적용한다.

scipy의 mode()함수로 계산할 수 있으며, Series의 value_counts()로 나타낼 수도 있다.

profile
데이터 굽는 타자기

0개의 댓글