TIL8 : 기술통계치

김시은·2022년 9월 14일
0

Today I Learned

목록 보기
5/9

기술통계

데이터를 묘사, 요약, 설명하는 통계적 방법과 절차들

기술 통계치

데이터를 요약하기 위해 사용 (우리는 바쁘니까, 많은 사례들을 요약해서 전달하기 위해서 사용한다)

1. 중심 경향치

데이터가 어디에 몰려 있는가?

  • 평균 (mean) : N개의 값이 있을 때, 그 합계를 N으로 나눈 것
  • 중간값 (median) : 값들을 크기 순으로 정렬했을 때 중간에 위치한 값
  • 최빈값 (mode) : 가장 많은 사례에서 관찰된 값
#평균값
mean()

#중간값
median()

#최빈값 (여기서는 큰 의미는 없는 값)
mode()

#범주별 사례수를 카운트
df.model.value_counts()

2. 분위수

크기순으로 정렬된 데이터를 q개로 나누는 위치의 값
(쉽게 말하면 등수이지만, 10명 중 1등인지, 100명 중 1등인지 알기 위해 분위수를 사용)

df.price.quantile(0) #가격순으로 1등 (가장 싼 차)
df.price.quantile(1) #가격순으로 1등 (가장 비싼 차)
df.price.quantile(0.5) #가격순으로 가운데(=중간값)
df.price.quantile(0.1) #가격순으로 싼 쪽에서 상위 10%
df.price.quantile(0.9) #가격순으로 비싼 쪽에서 상위 10%

#특정 값이 어느 분위에 위치하는지 알고 싶다면?
import scipy.stats
scipy.stats.percentileofscore(df.price, 1320)  # 1320만원은 89.96%에 위치
  • 사분위수 (quartile) : 데이터를 4등분하는 위치
  • 백분위수 (percentile) : 데이터에서 순위를 퍼센트로 표현

3. 변산성 측정치 - 데이터가 어느 정도 퍼져있는가?

사분위간 범위(IQR; Inter Quartie Range)

  • 범위 : 데이터의 최대값 - 최소값
    하지만 극단값이 있으면 범위가 커지고, 과대평가가 될 수 있다 -> 양 극단값을 제외해준다.

    사분위간 범위(IQR) : 3사분위수 - 1사분위수

#IQR
df.price.quantile(0.75) - df.price.quantile(0.25)

상자 수염 그림

  • 제1사분위수 ~ 제3사분위수를 상자로 표현
  • 중간값은 상자 가운데 굵은 선으로 표시
  • 최소값과 최대값은 수염(whisker)으로 표시
  • 수염의 최대 길이는 IQR의 1.5배까지 표시, 만약 값이 이보다 넘어간다면 점으로 표시한다.
경험적으로 IQR의 1.5배를 넘는 경우가 많지 않기 때문에, 특별한 케이스로 간주하여 점으로 표시하는 것 (절대적인건 아님, 조정도 가능)
![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/450f70a5-70ff-430b-9514-25f734662134/Untitled.png)

profile
데이터분석가를 꿈꾸어요

0개의 댓글