[기초통계] 통계량

밍키·2020년 8월 11일

0

통계왕이 될 남자다

목록 보기

2/5

데이터셋의 데이터들의 특징을 하나의 숫자로 요약한 것.

1. 평균

전체 데이터들의 합계를 총 개수로 나눈 통계량
전체 데이터셋의 데이터들은 평균값 근처에 분포되어 데이터셋의 대표값으로 사용한다.
이상치(너무 크거나 작은 값)의 영향을 많이 받는다.

$평균 = \cfrac{1}{n}\sum_{i=1}^{n}{X_i}$

2. 중앙값

분포된 값들을 작은값 부터 순서대로 나열한 뒤 그 중앙에 위치한 값
이상치에 영향을 받지 않아 평균대신 집단의 대표값으로 사용한다.

3. 표준편차/분산

값들이 흩어져있는 상태(분포)를 추정하는 통계량으로 분포된 값들이 평균에서 부터 얼마나 떨어져 있는지를 나타내는 통계량.
각 데이터가 평균으로 부터 얼마나 차이가 있는지를 편차(Deviation)라고 한다. ( 평균−데이터 )

3.1 분산

편차 제곱의 합을 총 개수로 나눈 값
$분산 = \cfrac{1}{n}\sum_{i=1}^{n}(평균-X_i)^2$

3.2 표준편차

분산의 제곱근
분산은 원래 값에 제곱을 했으므로 다시 원래 단위로 계산한 값.
$표준편차 = \sqrt{\cfrac{1}{n}\sum_{i=1}^{n}(평균-X_i)^2}$

4. 최빈값(mode)

데이터 셋에서 가장 많이 있는 값.

5. 분위수(Quantile)

데이터의 크기 순서에 따른 위치값
- 데이터셋을 크기순으로 정렬한뒤 N등분했을 때 특정 위치에서의 값 (단면)
- N등분한 특정위치의 값들 통해 전체 데이터셋을 분포를 파악한다.
- 대표적인 분위수 : 4분위, 10분위, 100분위

데이터의 분포를 파악할 때 사용
이상치 중 극단값들을 찾을 때 사용 (4분위수)

대한민국 4차 산업의 역군을 꿈꾸며.

이전 포스트

[기초통계] 기술통계와 추리통계

다음 포스트

부트스트랩이란?

0개의 댓글

관련 채용 정보