자유도와 불편추정량

5050·2021년 8월 26일

통계

목록 보기
5/5

자유도의 정의

자유도란 독립변수의 개수를 의미한다.

ex) x + y + z = 3 이라는 방정식이 있을 때, 독립변수의 개수가 3개라는 생각이 들 수 있다.
하지만, 만약 x = 1, y = 1이라면 자동으로 z의 값이 1로 결정된다. 그러므로 두 개의 변수 값이 결정된다면 나머지 하나의 변수가 자동으로 결정되므로 두 개의 독립변수와 하나의 종속변수로 이루어져 있다고 볼 수 있다. 그러므로 위 방정식의 자유도는 2가 된다.

불편추정량의 정의

먼저, 모수라는 용어와 추정량이라는 용어를 알아볼 것이다.
모집단 : 정보를 얻고자하는 관심 대상의 전체집합
ex) 우리나라 대선때 누구를 뽑았는가에 대한 모집단은 투표권이 있는 성인 전체가 모집단이 된다.

모집단이 가지는 평균, 분산과 같은 것들이 모수가 된다.
즉, 모집단 전체를 설명할 수 있는 측도가 된다.

그런데 보통 모집단의 크기가 크기 때문에 전수조사가 어렵다. 그래서 표본을 뽑고 표본의 평균과 분산을 구하는데, 이를 통해 모집단을 추정한다. 이 표본의 평균과 분산같은 표본을 설명할 수 있는 측도가 추정량이 된다.

불편추정량에서 불편은 편의가 없다는 뜻인데
편의 = 모수 - 추정량의 기댓값이 된다.
즉 불편추정량이란 편의가 없는 추정량의 기댓값 즉, 모수와 추정량의 기댓값이 같은 상태를 의미한다.

표본평균과 표본분산

모집단의 평균 μ\mu, 분산 σ2\sigma^2라고 할 때,
Xˉ\bar{X}를 표본평균이라고 한다.
(크기가 k인 표본을 뽑는데, 한 집단이 아닌 여러 개를 뽑는다. 즉, {x1,x2,...,xk}\{x_1, x_2, ...,x_k\} 이런 표본을 여러 개(n) 뽑아 평균낸 것을 표본평균이라고 한다.)

표본평균의 기댓값을 살펴보면
E(Xˉ)=E(i=1nXi/n)=E(i=1nXi)n=μE(\bar{X}) = E(\sum_{i=1}^{n} X_i / n) =\frac{E(\sum_{i=1}^{n} X_i)}{n} = \mu가 된다.
그러므로, 표본평균의 기댓값은 불편추정량이 된다.

표본분산을 S2S^2이라고 한다면
E(S2)=E(i=1n(XiXˉ)2/(n1))=E(i=1n(XiXˉ)2)n1E(S^2) = E(\sum_{i=1}^{n} (X_i - \bar{X})^2/(n-1)) = \frac{E(\sum_{i=1}^{n} (X_i - \bar{X})^2)}{n-1} 이라고 정의되는데 왜 n이 아닌지 살펴보자

E(i=1n(XiXˉ)2)=E(i=1n(Xiμ+μXˉ)2)E(\sum_{i=1}^{n} (X_i - \bar{X})^2) = E(\sum_{i=1}^{n} (X_i -\mu + \mu - \bar{X})^2)
=E(i=1n(Xiμ)2+i=1n(Xˉμ)2+i=1n2(xiμ)(μXˉ))E(\sum_{i=1}^{n} (X_i-\mu)^2 + \sum_{i=1}^{n} (\bar{X} - \mu)^2 + \sum_{i=1}^{n}2(x_i - \mu)(\mu - \bar{X}))

i=1nxi=nXˉ\sum_{i=1}^{n}x_i = n\bar{X}이므로,

i=1n(Xˉμ)2=n(Xˉμ)2\sum_{i=1}^{n} (\bar{X} - \mu)^2 = n(\bar{X} - \mu)^2

i=1n2(xiμ)(μXˉ)=2n(Xˉμ)2\sum_{i=1}^{n}2(x_i - \mu)(\mu - \bar{X}) = -2n(\bar{X} - \mu)^2

E(i=1n(Xiμ)2)=nσ2E(\sum_{i=1}^{n} (X_i-\mu)^2) = n\sigma^2

E(S2)=nσ2nE((Xˉμ)2)n1E(S^2) = \frac{n\sigma^2 - nE((\bar{X} - \mu)^2)}{n-1}
(E((Xˉμ)2)=σ2nE((\bar{X} - \mu)^2) = \frac{\sigma^2}{n}) //맨 아래에 설명
E(S2)=σ2E(S^2) = \sigma^2이 된다.
즉, 표본분산의 기댓값을 불편추정량으로 만들기 위해 n-1로 나누는 것이고, 표본분산을 잘 본다면, 편차의 합은 0이 되므로
(X1Xˉ)+(X2Xˉ)+...+(XnXˉ)=0(X_1 - \bar{X}) + (X_2 - \bar{X}) + ... + (X_n - \bar{X}) = 0 이라는 방정식에서 XnX_n이 종속변수로 판단되어 n-1개의 독립변수라는 것을 볼 수 있고 그러므로 자유도는 n-1개가 된다는 것을 알 수 있다.
그래서 자유도와 불편추정량은 이렇게 연결이 되었다고 볼 수 있다.

참고사항
V(Xˉ)=E((Xˉμ)2)=σ2nV(\bar{X}) = E((\bar{X} - \mu)^2) = \frac{\sigma^2}{n}
= E((i=1n(xiμn)2)E((\sum_{i=1}^{n} (\frac{x_i -\mu}{n})^2)
= E(i=1nxiμ)2n2\frac{E(\sum_{i=1}^{n} x_i -\mu)^2}{n^2}

E((i=1nxiμ)2)=E((x1μ)2+(x2μ)2+...+(xnμ)2+a)E((\sum_{i=1}^{n} x_i -\mu)^2) = E((x_1 -\mu)^2 + (x_2 -\mu)^2 + ... + (x_n -\mu)^2 + a) // aax1,x2,...,μx_1, x_2, ..., \mu들로 이루어진 식
각 표본 x1,x2...x_1, x_2 ...는 서로 독립이므로 E(a)E(a)는 0이 된다.

E((x1μ)2+(x2μ)2+...+(xnμ)2)=nσ2E((x_1 -\mu)^2 + (x_2 -\mu)^2 + ... + (x_n -\mu)^2) = n\sigma^2이 되므로
E(i=1nxiμ)2n2=σ2n=V(Xˉ)\frac{E(\sum_{i=1}^{n} x_i -\mu)^2}{n^2}=\frac{\sigma^2}{n} = V(\bar{X})가 된다.

참고사항 : https://www.youtube.com/watch?v=faVIwae-wkw&ab_channel=%ED%86%B5%EA%B3%84%EC%9D%98%EB%B3%B8%EC%A7%88EOStatistics

profile
하이

0개의 댓글