분산도
분산, 표준편차
- 자료의 밀집과 퍼짐 정도
- 값이 커질수록 평균이랑 멀어지는 값을 표본을 가짐
plt.rcParams['figure.figsize'] = 15,8
plt.figure(figsize=(4,4))
import numpy
val = df['사고건수']
var = numpy.var(val)
var
import math
std = math.sqrt(var)
std
boxplot
사분위 범위(IQR)과 이상치의 탐지
사분위수(Quartile)
1사분위수(Q1)
2사분위수(Q2)
- Median(중앙값), 50th percentile
3사분위수(Q3)
사분위간 범위
maximum
minimum
outliers
- minimum보다 작거나
- maximum보다 큰값
plt.boxplot(df['사고건수'])
plt.show()

fig, ax= plt.subplots()
ax.boxplot([df['사고건수'], df['중상자수']])
plt.title('2020년 사고건수, 중상자수 Boxplot')
plt.xticks([1,2], ['사고건수', '중상자수'])
plt.show()

sns.boxplot(x='시도', y='사고건수', data=df)
plt.show()

sns.boxplot(x='시도', y='사고건수', hue='ym', data=df)
plt.show()

sns.factorplot(x='시도', y='사고건수', col='ym', kind='box', palette='Set3', data=df)
plt.show()

변동계수
- 상대적으로 얼마나 변동이 많은지를 보기 위한 지표
- 단위가 다르거나, 표준편차가 비슷한 그룹끼리 비교하고 싶을 때 일정한 기준에 따른 비교가 가능하다
- 표준편차/평균
왜도 (Skewness)
- 분포의 비대칭도를 나타내는 통계량
- 비대칭이 커질수록 왜도의 절대값은 증가
- 일반적으로 왜도가 -1~+1 범위는 치우침이 없는 데이터라고 한다.
첨도(Kurtosis)
- 꼬리 부분의 길이와 중앙 부분의 뾰족함으로 데이터의 분포를 알 수 있음
- Mesokurtic : 정규분포 모양
- Leptokurtic : 중앙 부분은 Mesokurtic보다 높고 뾰족하기 떄문에 이상치(outlier)가 많을 수 있음
- Platykurtic : Leptokurtic와 반대, 이상치(outlier)가 없음, 데이터 다시 확인 필요
