내가 복습하려고 만든 통계학 기초 용어 및 선형회귀
산술평균, 기하평균, 조화평균
- 산술평균 : 우리가 늘 사용하는 평균
- 기하평균 : N개의 양수 값을 모든 곱한 값을 n 제곱근, 주로 넓이 계산, 부피 계산 등 곱으로 계산되는 값들의 평균을 구하기 위해 사용
- 조화평균 : 역수의 산술평균의 역수 -> 역수에서 평균을 구한 후, 다시 역수를 취해서 원래 차원의 값으로 되돌린 값, 다른 차원에서의 값을 구한 후, 다시 원래 차원으로 되돌릴 때 많이 사용하는 값, 주로 시간, 속력, 거리를 계산할 때 사용
사분위 범위(IQR)과 이상치의 탐지
데이터의 분포 특성을 파악하고 중앙 집중 경향, 변동성을 파악하기 위해 사용
- 사범위수(Quartile)
1사분위수, Q1 : 25%
2사분위수, Q2 : 50%
3사분위수, Q3 : 75%
4사분위수, Q4 : 100 %
사분위간 범위(Interquartile Range, IQR) : Q3 - Q1

최댓값 : Q3 + 1.5IQR
최소값 : Q1 - 1.5IQR
Outliers : 최대보다 크거나 최소보다 작거나
변동 계수 (Coefficient of variation)
- 상대적으로 얼마나 변동이 많은지를 보기 위한 지표
- 단위가 다르거나, 표준편차가 비슷한 그룹끼리 비교하고 싶을 때 일정한 기준에 따른 비교가 가능.
변동계수(CV) = 표준편차/평균

왜도와 첨도
왜도(Skewness)
- 분포의 비대칭도를 나타내는 통계량
- 비대칭이 커질수록 왜도의 절대값은 증가
- 일반적으로 왜도가 -1 ~ +1 범위는 치우침이 없는 데이터라고 함.

첨도(Kurtosis)
- 꼬리 부분의 길이와 중앙 부분의 뾰족함으로 데이터의 분포를 알 수 있음.
