데이터셋의 데이터들의 특징을 하나의 숫자로 요약한 것.
1. 평균
- 전체 데이터들의 합계를 총 개수로 나눈 통계량
- 전체 데이터셋의 데이터들은 평균값 근처에 분포되어 데이터셋의 대표값으로 사용한다.
- 이상치(너무 크거나 작은 값)의 영향을 많이 받는다.
- 평균=n1∑i=1nXi
2. 중앙값
분포된 값들을 작은값 부터 순서대로 나열한 뒤 그 중앙에 위치한 값
이상치에 영향을 받지 않아 평균대신 집단의 대표값으로 사용한다.
3. 표준편차/분산
- 값들이 흩어져있는 상태(분포)를 추정하는 통계량으로 분포된 값들이 평균에서 부터 얼마나 떨어져 있는지를 나타내는 통계량.
- 각 데이터가 평균으로 부터 얼마나 차이가 있는지를 편차(Deviation)라고 한다. ( 평균−데이터 )
3.1 분산
- 편차 제곱의 합을 총 개수로 나눈 값
- 분산=n1∑i=1n(평균−Xi)2
3.2 표준편차
- 분산의 제곱근
- 분산은 원래 값에 제곱을 했으므로 다시 원래 단위로 계산한 값.
- 표준편차=n1∑i=1n(평균−Xi)2
4. 최빈값(mode)
5. 분위수(Quantile)
- 데이터의 크기 순서에 따른 위치값
- 데이터셋을 크기순으로 정렬한뒤 N등분했을 때 특정 위치에서의 값 (단면)
- N등분한 특정위치의 값들 통해 전체 데이터셋을 분포를 파악한다.
- 대표적인 분위수 : 4분위, 10분위, 100분위
- 데이터의 분포를 파악할 때 사용
- 이상치 중 극단값들을 찾을 때 사용 (4분위수)