[기초통계] 통계량

밍키·2020년 8월 11일
0

데이터셋의 데이터들의 특징을 하나의 숫자로 요약한 것.

1. 평균


  • 전체 데이터들의 합계를 총 개수로 나눈 통계량
  • 전체 데이터셋의 데이터들은 평균값 근처에 분포되어 데이터셋의 대표값으로 사용한다.
  • 이상치(너무 크거나 작은 값)의 영향을 많이 받는다.
  • 평균=1ni=1nXi평균 = \cfrac{1}{n}\sum_{i=1}^{n}{X_i}

2. 중앙값


분포된 값들을 작은값 부터 순서대로 나열한 뒤 그 중앙에 위치한 값
이상치에 영향을 받지 않아 평균대신 집단의 대표값으로 사용한다.

3. 표준편차/분산


  • 값들이 흩어져있는 상태(분포)를 추정하는 통계량으로 분포된 값들이 평균에서 부터 얼마나 떨어져 있는지를 나타내는 통계량.
  • 각 데이터가 평균으로 부터 얼마나 차이가 있는지를 편차(Deviation)라고 한다. ( 평균−데이터 )

3.1 분산


  • 편차 제곱의 합을 총 개수로 나눈 값
  • 분산=1ni=1n(평균Xi)2분산 = \cfrac{1}{n}\sum_{i=1}^{n}(평균-X_i)^2

3.2 표준편차


  • 분산의 제곱근
  • 분산은 원래 값에 제곱을 했으므로 다시 원래 단위로 계산한 값.
  • 표준편차=1ni=1n(평균Xi)2표준편차 = \sqrt{\cfrac{1}{n}\sum_{i=1}^{n}(평균-X_i)^2}

4. 최빈값(mode)


  • 데이터 셋에서 가장 많이 있는 값.

5. 분위수(Quantile)


  • 데이터의 크기 순서에 따른 위치값
    • 데이터셋을 크기순으로 정렬한뒤 N등분했을 때 특정 위치에서의 값 (단면)
    • N등분한 특정위치의 값들 통해 전체 데이터셋을 분포를 파악한다.
    • 대표적인 분위수 : 4분위, 10분위, 100분위
  • 데이터의 분포를 파악할 때 사용
  • 이상치 중 극단값들을 찾을 때 사용 (4분위수)
profile
대한민국 4차 산업의 역군을 꿈꾸며.

0개의 댓글