분산
표준 편차 - root를 씌워 원자료의 단위와 동일하게 만듬
편차(관측값 - 평균) 제곱의 합을 n-1
로 나누는 이유는 표본 분산이나 표본 표준편차가 불편 추정량(unbiased estimator)이 되도록 만들기 위해서이다.
DECLARE sample ARRAY<INT64> DEFAULT [4, 8, 7, 5, 2, 6, 3];
SELECT VAR_POP(s) AS v_sample, VAR_SAMP(s) AS v_population
FROM UNNEST(sample) s
Row | v_sample | v_population |
---|---|---|
1 | 4.000000000000001 | 4.666666666666668 |
DECLARE sample ARRAY<INT64> DEFAULT [4, 8, 7, 5, 2, 6, 3];
SELECT MAX(s) - MIN(s) AS `range`
FROM UNNEST(sample) s
[출처] Wikipedia
DECLARE sample ARRAY<INT64> DEFAULT GENERATE_ARRAY(45, 55);
SELECT APPROX_QUANTILES(s, 4)[3] - APPROX_QUANTILES(s, 4)[1] AS iqr
FROM UNNEST(sample) s;
# [45, 47, 50, 53, 55]
# 6 -- iqr
위의 쿼리는 기본적으로 Five Number Summary 를 보여주고 있다.
SELECT PERCENTILE_CONT(x, 0) OVER() AS min,
PERCENTILE_CONT(x, 0.25) OVER() AS percentile25,
PERCENTILE_CONT(x, 0.5) OVER() AS median,
PERCENTILE_CONT(x, 0.75) OVER() AS percentile75,
PERCENTILE_CONT(x, 1) OVER() AS max
FROM UNNEST([0, 3, NULL, 1, 2]) AS x LIMIT 1;
+-----+-------------+--------+--------------+-----+
| min | percentile25| median | percentile75 | max |
+-----+-------------+--------+--------------+-----+
| 0 | 0.75 | 1.5 | 2.25 | 3.0 |
+-----+-------------+--------+--------------+-----+