평균의 종류
1. 산술평균 (arithmetic mean)
- 주어진 수의 합을 수의 갯수로 나누는 일반적인 평균 (a+b) / 2
2. 기하평균 (geometric mean)
// 시작 값을 1로 봤을 때 변화된 값 과의 비율을 구함
// 답의 소숫점 자리가 증가율을 의미
((after1/before1) * (after2/before2))^(1/2)
ex) (2 * 0.833)^(1/2) = 1.29
평균 증가율 = 29%
3. 조화평균 (harmonic mean)
- 같은 경로일 때 "평균 속력"을 구할 때 사용 (2ab) / (a+b)
분산과 표준편차
1. 편차 (deviation)
- 관측값들이 평균으로부터 떨어진 정도 관측값 - 평균
2. 분산 (variance)
- 편차 제곱의 평균 ((관측값 - 평균)^2 + (관측값 - 평균)^2) / 2
3. 표준편차 (standard deviation)
- 분산의 양의 제곱근
- 값이 작을수록 자료들이 평균에 모여있음 (분산)^(1/2)
사분위 범위(IQR)과 이상치 탐지
- 사분위수 (Quartile) : 데이터를 같은 갯수를 가진 4개의 그룹으로 나누는 기준 값
- 1사분위수 (Q1) : 25th percentile
- 2사분위수 (Q2) : 중앙값 (median), 50th percentile
- 3사분위수 (Q3) : 75th percentile
- 사분위간 범위 (Interquartile Range, IQR) : Q3 - Q1
- Minimum : Q1 - 1.5 * IQR
- Maximum : Q3 + 1.5 * IQR
- 이상치 (Outliers) : Min보다 작거나 Max보다 큰 값
변동계수
변동계수
- 상대적으로 얼마나 변동이 많은지를 보기 위한 지표
- 변동계수가 크다면 불안정함을 의미 변동계수 (CV) = 표준편차 / 평균
왜도와 첨도
1. 왜도 (Skewness)
- 분포의 비대칭도를 나타내는 통계량
- 비대칭이 커질수록 왜도의 절댓값 증가
- -1 < 왜도 < 1 이면 치우침이 없는 데이터
2. 첨도 (Kurtosis)
- 꼬리 길이와 뾰족함으로 데이터의 분포를 확인
- Mesokurtic : 정규 분포
- Leptokurtic : Mesokurtic보다 높고 뾰족함, 꼬리가 짧기 때문에 이상치(outlier)가 많을 수 있음
- Platykurtic : Leptokurtic의 반대, 꼬리가 넓게 퍼져있기 때문에 이상치(outlier)가 없음, 데이터 재확인 필요