분산도, boxplot, 왜도와 첨도

오상윤·2022년 12월 26일
0

통계 기초

목록 보기
2/7

분산도

분산, 표준편차

  • 자료의 밀집과 퍼짐 정도
  • 값이 커질수록 평균이랑 멀어지는 값을 표본을 가짐
plt.rcParams['figure.figsize'] = 15,8
plt.figure(figsize=(4,4))
# 분산
import numpy
val = df['사고건수']
var = numpy.var(val)
var
# 표준편차
import math
std = math.sqrt(var)
std

boxplot

사분위 범위(IQR)과 이상치의 탐지

사분위수(Quartile)

  • 값을 같은 갯수로 4개로 나눈 각각의 값

1사분위수(Q1)

  • 25%

2사분위수(Q2)

  • Median(중앙값), 50th percentile

3사분위수(Q3)

  • 75%

사분위간 범위

  • Q3-Q1

maximum

  • Q3+z.5*IQR

minimum

  • Q1-1.5*IQR

outliers

  • minimum보다 작거나
  • maximum보다 큰값
plt.boxplot(df['사고건수'])
plt.show()

# boxplot 한그림에 두개 그리기
fig, ax= plt.subplots()
ax.boxplot([df['사고건수'], df['중상자수']])
plt.title('2020년 사고건수, 중상자수 Boxplot')
plt.xticks([1,2], ['사고건수', '중상자수'])
plt.show()

# 여러개 boxplot그리기
sns.boxplot(x='시도', y='사고건수', data=df)
plt.show()

# ym 별 boxplot 그리기
sns.boxplot(x='시도', y='사고건수', hue='ym', data=df)
plt.show()

# ym 별 boxplot 따로 그리기
sns.factorplot(x='시도', y='사고건수', col='ym', kind='box', palette='Set3', data=df)
plt.show()

변동계수

  • 상대적으로 얼마나 변동이 많은지를 보기 위한 지표
  • 단위가 다르거나, 표준편차가 비슷한 그룹끼리 비교하고 싶을 때 일정한 기준에 따른 비교가 가능하다
  • 표준편차/평균

왜도 (Skewness)

  • 분포의 비대칭도를 나타내는 통계량
  • 비대칭이 커질수록 왜도의 절대값은 증가
  • 일반적으로 왜도가 -1~+1 범위는 치우침이 없는 데이터라고 한다.

첨도(Kurtosis)

  • 꼬리 부분의 길이와 중앙 부분의 뾰족함으로 데이터의 분포를 알 수 있음
  • Mesokurtic : 정규분포 모양
  • Leptokurtic : 중앙 부분은 Mesokurtic보다 높고 뾰족하기 떄문에 이상치(outlier)가 많을 수 있음
  • Platykurtic : Leptokurtic와 반대, 이상치(outlier)가 없음, 데이터 다시 확인 필요

profile
가보자가보자~

0개의 댓글