자유도의 정의
자유도란 독립변수의 개수를 의미한다.
ex) x + y + z = 3 이라는 방정식이 있을 때, 독립변수의 개수가 3개라는 생각이 들 수 있다.
하지만, 만약 x = 1, y = 1이라면 자동으로 z의 값이 1로 결정된다. 그러므로 두 개의 변수 값이 결정된다면 나머지 하나의 변수가 자동으로 결정되므로 두 개의 독립변수와 하나의 종속변수로 이루어져 있다고 볼 수 있다. 그러므로 위 방정식의 자유도는 2가 된다.
불편추정량의 정의
먼저, 모수라는 용어와 추정량이라는 용어를 알아볼 것이다.
모집단 : 정보를 얻고자하는 관심 대상의 전체집합
ex) 우리나라 대선때 누구를 뽑았는가에 대한 모집단은 투표권이 있는 성인 전체가 모집단이 된다.
모집단이 가지는 평균, 분산과 같은 것들이 모수가 된다.
즉, 모집단 전체를 설명할 수 있는 측도가 된다.
그런데 보통 모집단의 크기가 크기 때문에 전수조사가 어렵다. 그래서 표본을 뽑고 표본의 평균과 분산을 구하는데, 이를 통해 모집단을 추정한다. 이 표본의 평균과 분산같은 표본을 설명할 수 있는 측도가 추정량이 된다.
불편추정량에서 불편은 편의가 없다는 뜻인데
편의 = 모수 - 추정량의 기댓값이 된다.
즉 불편추정량이란 편의가 없는 추정량의 기댓값 즉, 모수와 추정량의 기댓값이 같은 상태를 의미한다.
표본평균과 표본분산
모집단의 평균 μ, 분산 σ2라고 할 때,
Xˉ를 표본평균이라고 한다.
(크기가 k인 표본을 뽑는데, 한 집단이 아닌 여러 개를 뽑는다. 즉, {x1,x2,...,xk} 이런 표본을 여러 개(n) 뽑아 평균낸 것을 표본평균이라고 한다.)
표본평균의 기댓값을 살펴보면
E(Xˉ)=E(∑i=1nXi/n)=nE(∑i=1nXi)=μ가 된다.
그러므로, 표본평균의 기댓값은 불편추정량이 된다.
표본분산을 S2이라고 한다면
E(S2)=E(∑i=1n(Xi−Xˉ)2/(n−1))=n−1E(∑i=1n(Xi−Xˉ)2) 이라고 정의되는데 왜 n이 아닌지 살펴보자
E(∑i=1n(Xi−Xˉ)2)=E(∑i=1n(Xi−μ+μ−Xˉ)2)
=E(∑i=1n(Xi−μ)2+∑i=1n(Xˉ−μ)2+∑i=1n2(xi−μ)(μ−Xˉ))
∑i=1nxi=nXˉ이므로,
∑i=1n(Xˉ−μ)2=n(Xˉ−μ)2
∑i=1n2(xi−μ)(μ−Xˉ)=−2n(Xˉ−μ)2
E(∑i=1n(Xi−μ)2)=nσ2
E(S2)=n−1nσ2−nE((Xˉ−μ)2)
(E((Xˉ−μ)2)=nσ2) //맨 아래에 설명
E(S2)=σ2이 된다.
즉, 표본분산의 기댓값을 불편추정량으로 만들기 위해 n-1로 나누는 것이고, 표본분산을 잘 본다면, 편차의 합은 0이 되므로
(X1−Xˉ)+(X2−Xˉ)+...+(Xn−Xˉ)=0 이라는 방정식에서 Xn이 종속변수로 판단되어 n-1개의 독립변수라는 것을 볼 수 있고 그러므로 자유도는 n-1개가 된다는 것을 알 수 있다.
그래서 자유도와 불편추정량은 이렇게 연결이 되었다고 볼 수 있다.
참고사항
V(Xˉ)=E((Xˉ−μ)2)=nσ2
= E((∑i=1n(nxi−μ)2)
= n2E(∑i=1nxi−μ)2
E((∑i=1nxi−μ)2)=E((x1−μ)2+(x2−μ)2+...+(xn−μ)2+a) // a는 x1,x2,...,μ들로 이루어진 식
각 표본 x1,x2...는 서로 독립이므로 E(a)는 0이 된다.
E((x1−μ)2+(x2−μ)2+...+(xn−μ)2)=nσ2이 되므로
n2E(∑i=1nxi−μ)2=nσ2=V(Xˉ)가 된다.
참고사항 : https://www.youtube.com/watch?v=faVIwae-wkw&ab_channel=%ED%86%B5%EA%B3%84%EC%9D%98%EB%B3%B8%EC%A7%88EOStatistics