기초통계 003 - 기술 통계 (2)

Jay Park·2021년 12월 28일
1

기초통계

목록 보기
4/4

산포적 경향

  • 흩어짐, 변동
  • 관측값과 평균의 차이 제곱의 합

분산과 표준편차

  • 분산

    s2=1n1i=1n(XiXˉ)2s^2 = \dfrac{1}{n-1} \cdot \sum_{i=1}^{n}(X_i - \bar X)^2

  • 표준 편차 - root를 씌워 원자료의 단위와 동일하게 만듬

    s=s2=1n1i=1n(XiXˉ)2s = \sqrt {s^2} = \sqrt {\dfrac{1}{n-1} \cdot \sum_{i=1}^{n}(X_i - \bar X)^2}

편차(관측값 - 평균) 제곱의 합을 n-1로 나누는 이유는 표본 분산이나 표본 표준편차가 불편 추정량(unbiased estimator)이 되도록 만들기 위해서이다.

DECLARE sample ARRAY<INT64> DEFAULT [4, 8, 7, 5, 2, 6, 3];

SELECT VAR_POP(s) AS v_sample, VAR_SAMP(s) AS v_population 
  FROM UNNEST(sample) s
Rowv_samplev_population
14.0000000000000014.666666666666668

범위 (Range)

  • 관측값의 최대값과 최소값의 차이
DECLARE sample ARRAY<INT64> DEFAULT [4, 8, 7, 5, 2, 6, 3];

SELECT MAX(s) - MIN(s) AS `range`
  FROM UNNEST(sample) s

분위수 (Quantile)

  • 이분위수 : 중앙값 (median)
  • 삼분위수 : Tertiles
  • 사분위수 : Quartiles
  • 십분위수 : Deciles
  • 백분위수 : Percentiles, 전체 자료를 크기 순으로 100개의 구간으로 나눈 것.

사분위수(InterQuantile Range, IQR)


[출처] Wikipedia

  • 정렬된 자료에서 중앙의 50%가 포함되는 범위
  • 제3분위수와 제1분위수의 차이
DECLARE sample ARRAY<INT64> DEFAULT GENERATE_ARRAY(45, 55);

SELECT APPROX_QUANTILES(s, 4)[3] - APPROX_QUANTILES(s, 4)[1] AS iqr
  FROM UNNEST(sample) s;

# [45, 47, 50, 53, 55]
# 6 -- iqr

※ Five Number Summary

위의 쿼리는 기본적으로 Five Number Summary 를 보여주고 있다.

  • 최소값
  • 1사분위수(Q1)
  • 2사분위수(Q2) = 중앙값 (median)
  • 3사분위수(Q3)
  • 최대값
SELECT PERCENTILE_CONT(x, 0) OVER() AS min,
       PERCENTILE_CONT(x, 0.25) OVER() AS percentile25,
       PERCENTILE_CONT(x, 0.5) OVER() AS median,
       PERCENTILE_CONT(x, 0.75) OVER() AS percentile75,
       PERCENTILE_CONT(x, 1) OVER() AS max
  FROM UNNEST([0, 3, NULL, 1, 2]) AS x LIMIT 1;

+-----+-------------+--------+--------------+-----+
| min | percentile25| median | percentile75 | max |
+-----+-------------+--------+--------------+-----+
| 0   | 0.75        | 1.5    | 2.25         | 3.0 |
+-----+-------------+--------+--------------+-----+

분포의 모양

왜도 (skewness)

  • 분포의 비대칭성 정도

첨도 (kurtosis)

  • 분포의 꼬리 부분과 중앙 부분의 집중도 비율
profile
Jaytiger

0개의 댓글