TIL8 : 기술통계치

김시은·2022년 9월 14일

Today I learned

Today I Learned

목록 보기

5/9

기술통계

데이터를 묘사, 요약, 설명하는 통계적 방법과 절차들

기술 통계치

데이터를 요약하기 위해 사용 (우리는 바쁘니까, 많은 사례들을 요약해서 전달하기 위해서 사용한다)

1. 중심 경향치

데이터가 어디에 몰려 있는가?

평균 (mean) : N개의 값이 있을 때, 그 합계를 N으로 나눈 것
중간값 (median) : 값들을 크기 순으로 정렬했을 때 중간에 위치한 값
최빈값 (mode) : 가장 많은 사례에서 관찰된 값

#평균값
mean()

#중간값
median()

#최빈값 (여기서는 큰 의미는 없는 값)
mode()

#범주별 사례수를 카운트
df.model.value_counts()

2. 분위수

크기순으로 정렬된 데이터를 q개로 나누는 위치의 값
(쉽게 말하면 등수이지만, 10명 중 1등인지, 100명 중 1등인지 알기 위해 분위수를 사용)

df.price.quantile(0) #가격순으로 1등 (가장 싼 차)
df.price.quantile(1) #가격순으로 1등 (가장 비싼 차)
df.price.quantile(0.5) #가격순으로 가운데(=중간값)
df.price.quantile(0.1) #가격순으로 싼 쪽에서 상위 10%
df.price.quantile(0.9) #가격순으로 비싼 쪽에서 상위 10%

#특정 값이 어느 분위에 위치하는지 알고 싶다면?
import scipy.stats
scipy.stats.percentileofscore(df.price, 1320)  # 1320만원은 89.96%에 위치

사분위수 (quartile) : 데이터를 4등분하는 위치
백분위수 (percentile) : 데이터에서 순위를 퍼센트로 표현

3. 변산성 측정치 - 데이터가 어느 정도 퍼져있는가?

사분위간 범위(IQR; Inter Quartie Range)

범위 : 데이터의 최대값 - 최소값
하지만 극단값이 있으면 범위가 커지고, 과대평가가 될 수 있다 -> 양 극단값을 제외해준다.

사분위간 범위(IQR) : 3사분위수 - 1사분위수

#IQR
df.price.quantile(0.75) - df.price.quantile(0.25)

상자 수염 그림

제1사분위수 ~ 제3사분위수를 상자로 표현

중간값은 상자 가운데 굵은 선으로 표시

최소값과 최대값은 수염(whisker)으로 표시

수염의 최대 길이는 IQR의 1.5배까지 표시, 만약 값이 이보다 넘어간다면 점으로 표시한다.

경험적으로 IQR의 1.5배를 넘는 경우가 많지 않기 때문에, 특별한 케이스로 간주하여 점으로 표시하는 것 (절대적인건 아님, 조정도 가능)
![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/450f70a5-70ff-430b-9514-25f734662134/Untitled.png)

김시은

데이터분석가를 꿈꾸어요

이전 포스트

TIL6 : Python 기본 문법 복습

다음 포스트