표본분산 N-1 나누는 이유

J.H.L·2022년 7월 31일
0

AI 대학원 면접 준비

목록 보기
14/16

표본 집단: 표본 공간 (Sample Space)에서 임의로 뽑은 n개의 표본들의 집합.

표본 평균 : Xˉ=1ni=1NXi\bar{X} = \frac{1}{n}\sum_{i=1}^{N}X_i로 정의함.

표본 평균의 평균: E(Xˉ)E(\bar{X})를 의미하며, E(Xˉ)=E(1ni=1NXi)=1n[E(X1)+E(X2)]+...+E(XN)=1n[nμ]=μ(모평균)E(\bar{X}) = E(\frac{1}{n}\sum_{i=1}^{N}X_i) = \frac{1}{n}[E(X_1)+E(X_2)] + ... + E(X_N) = \frac{1}{n}[n * \mu] = \mu (모평균)이 된다.

  • 즉, 표본 평균(Xˉ\bar{X})의 평균은 모집단의 평균인 모평균과 같다.

표본 분산 S2=1N1i=1N(XiXˉ)2S^2 = \frac{1}{N-1}\sum_{i=1}^N(X_i-\bar{X})^2으로 정의할 수 있다.

  • 이때 XiXˉX_i -\bar{X}는 편차 (Bias)라 불리고, 편차의 합은 0이된다. i=1N(XiXˉ)=0\sum_{i=1}^N(X_i-\bar{X}) = 0

  • 또한 표본 분산의 기대값 E(S2)E(S^2)은 모분산 σ2\sigma^2이 나와야 한다.

  • 따라서 E(S2)=σ2E(S^2) = \sigma^2인 것이다.

표본 분산을 정의할 때 N-1로 나누는 이유?

증명)

  • S2S^2를 정의하는 공식을 1ki=1N(XiXˉ)\frac{1}{k}\sum_{i=1}^N(X_i-\bar{X})라 하자. 여기서 K 값을 구하게 될 것이다.
  • 모분산을 구하는 공식으로 식을 유도한다.
  • 1ni=1n(Xiμ)2=σ2\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2 =\sigma^2
  • i=1n(Xiμ)2=nσ2\sum_{i=1}^n(X_i-\mu)^2 =n\sigma^2
    = i=1n(XiXˉ+Xˉμ)2\sum_{i=1}^n(X_i - \bar{X} + \bar{X}-\mu)^2
    = i=1n(XiXˉ)2+2(Xˉμ)i=1n(XiXˉ)+n(Xˉμ)2\sum_{i=1}^n(X_i-\bar{X}) ^2+ 2(\bar{X}-\mu)\sum_{i=1}^n(X_i -\bar{X})+n(\bar{X}-\mu)^2, i=1n(XiXˉ)=0\sum_{i=1}^n(X_i -\bar{X}) = 0이므로
    =i=1n(XiXˉ)2+n(Xˉμ)2=nσ2\sum_{i=1}^n(X_i-\bar{X})^2 + n(\bar{X}-\mu)^2 = n\sigma^2 가 된다.
  • 기대값을 구해본다. (E를 씌운다.)
  • E(i=1n(XiXˉ)2+n(Xˉμ)2)=nσ2E(\sum_{i=1}^n(X_i-\bar{X})^2 + n(\bar{X}-\mu)^2) = n\sigma^2
    = E(i=1n(XiXˉ)2)+nE((Xˉμ)2)E(\sum_{i=1}^n(X_i-\bar{X})^2) + nE((\bar{X}-\mu)^2)
  • 이때 S2=1ki=1n(XiXˉ)2S^2 = \frac{1}{k}\sum_{i=1}^n(X_i-\bar{X})^2이므로 위의 식에 대입하게 되면
    = kE(S2)+nVar(Xˉ)kE(S^2)+nVar(\bar{X})가 되고, Var(Xˉ)=σ2nVar(\bar{X}) = \frac{\sigma^2}{n}이므로
    = kE(S2)+σ2=nσ2kE(S^2) + \sigma^2 = n\sigma^2
    = kE(S2)=(n1)σ2kE(S^2) = (n-1)\sigma^2
  • 표본 분산의 기대값은 모분산 이므로
    E(S2)=σ2E(S^2) = \sigma^2이고
    = kσ2=(n1)σ2k\sigma^2 = (n-1)\sigma^2이므로
    표본분산을 구할 땐 n-1로 나눠주게 되는 것이다.
profile
포항공대 인공지능 대학원에 재학중인 대학원생입니다.

0개의 댓글