데이터를 묘사, 요약, 설명하는 통계적 방법과 절차들
데이터를 요약하기 위해 사용 (우리는 바쁘니까, 많은 사례들을 요약해서 전달하기 위해서 사용한다)
데이터가 어디에 몰려 있는가?
#평균값
mean()
#중간값
median()
#최빈값 (여기서는 큰 의미는 없는 값)
mode()
#범주별 사례수를 카운트
df.model.value_counts()
크기순으로 정렬된 데이터를 q개로 나누는 위치의 값
(쉽게 말하면 등수이지만, 10명 중 1등인지, 100명 중 1등인지 알기 위해 분위수를 사용)
df.price.quantile(0) #가격순으로 1등 (가장 싼 차)
df.price.quantile(1) #가격순으로 1등 (가장 비싼 차)
df.price.quantile(0.5) #가격순으로 가운데(=중간값)
df.price.quantile(0.1) #가격순으로 싼 쪽에서 상위 10%
df.price.quantile(0.9) #가격순으로 비싼 쪽에서 상위 10%
#특정 값이 어느 분위에 위치하는지 알고 싶다면?
import scipy.stats
scipy.stats.percentileofscore(df.price, 1320) # 1320만원은 89.96%에 위치
사분위간 범위(IQR) : 3사분위수 - 1사분위수
#IQR
df.price.quantile(0.75) - df.price.quantile(0.25)
상자 수염 그림
- 제1사분위수 ~ 제3사분위수를 상자로 표현
- 중간값은 상자 가운데 굵은 선으로 표시
- 최소값과 최대값은 수염(whisker)으로 표시
- 수염의 최대 길이는 IQR의 1.5배까지 표시, 만약 값이 이보다 넘어간다면 점으로 표시한다.
경험적으로 IQR의 1.5배를 넘는 경우가 많지 않기 때문에, 특별한 케이스로 간주하여 점으로 표시하는 것 (절대적인건 아님, 조정도 가능)
![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/450f70a5-70ff-430b-9514-25f734662134/Untitled.png)