변이 추정 - 분산, 표준편차, 백분위수, 사분위수

Surf in Data·2022년 4월 7일
0

statistics

목록 보기
1/4
post-thumbnail
post-custom-banner

변이(variability)는 데이터 값이 얼마나 밀집해 있는지 혹은 퍼져 있는지를 나타내는 산포도(dispersion)을 의미한다.

분산과 표준편차

가장 대표적으로 사용되는 변이의 추정 방법은 제곱편차를 이용하는 분산과 표준편차이다.

분산(variance) = s2s^2 = i=1n(xixˉ)2n1\frac{\sum_{i = 1}^{n}{(x_i-\bar{x})^2}}{n-1}

표준편차(standard deviation) = s = i=1n(xixˉ)2n1\sqrt{\frac{\sum_{i = 1}^{n}{(x_i-\bar{x})^2}}{n-1}}

분산의 편차의 제곱의 평균 이라고 생각하면된다.

😶그렇다면 분산은 왜 n이 아니라 n-1로 나눌까?

사실 n이 충분히 큰 숫자라면 n으로 나누든 n-1로 나누든 상관이 없다. 즉, 이 차이는 n이 작을때(표본의 수가 작을때)생기게 되는 것이다.
n-1을 사용하는 이유는 표본의 분산이나 표준편차를 모집단의 분산이나 표준편차를 예측하는 추정치로 사용하려는 의도 때문이다.
표본의 크기가 작은 경우 표본의 분산이나 표준편차는 n을 사용할 경우, 모집단의 분산이나 표준편차를 작게 추정하는 경향을 보이기 때문이다. 좋은 추정치, 즉 불편추정치(unbiased estimate)를 만들기 위해 n-1을 사용한다고 할 수 있다.

백분위수(Percentile)

데이터에서 PP번째 백분위수는 PP퍼센트의 값이 그 값 혹은 그보다 작은 값을 갖고 (100P)(100-P)퍼센트의 값이 그 값 혹은 그보다 큰 값을 갖는 어떤 값을 의미한다.
중간값은 50번째 백분위수와 같다.

사분위범위(IQR)

가장 큰 값과 가장 작은 값의 차이를 범위라고 하는데 특잇값에 민감한 것을 피하기 위해, 범위의 양 끝에서 값들을 지운후 범위를 다시 알아볼 수 있다.

사분위 범위는 25번째 백분위수와 75번째 백분위수의 차이를 알아보는것이다.

👍예제:[1, 3, 3, 3, 4, 4, 4, 6, 6] 의 사분위범위를 구하기
먼저 9개의 자료가 있으므로 중앙값은 5번째에 위치한 4이다.
중앙값을 기준으로 왼쪽에서 제1사분위수를 구하면 다음과 같다.
[1, 3, 3, 3] 개수가 짝수개 이므로 중앙값은 가운데 3개의 평균이다.

제1사분위수(Q1Q_1) = 3+32\frac{3 + 3}{2} = 3

동일한 개념으로 [4, 4, 6, 6,]에서 제3 사분위 수를 구하면

제3사분위수(Q3Q_3) = 4+62\frac{4 + 6}{2} = 5

따라서 사분위수는 5-3인 2가 된다.

profile
study blog
post-custom-banner

0개의 댓글