기초통계학 - (3-2) 추리통계-모집단과 표본

Kyung Jae, Cheong·2022년 8월 15일

기초통계학

기초통계학(요약)

목록 보기

6/9

모집단과 표본

Keyword - 모집단분포, 표본분포, 표집분포, 중심극한정리, 편파추정치, 불편파추정치, 자유도

모집단분포,표본분포

모집단의 분포(population distribution)
- 일반적으로 평균이 $\mu$ , 표준편차가 $\sigma$ 인 정규분포를 나타냄
  $Population \sim N(\mu,\sigma^2)$
모수치 (Parameter)
- 평균 : $\mu$
- 분산 : $\sigma^2$
- 표준편차 : $\sigma$
- 사례수 : $N$
- 모비율 : $p$
표본집단의 분포(sample distribution)
- 일반적으로 평균이 $\bar X$ , 표준편차가 $s$ 인 분포를 나타냄
- 표본분포는 항상 정규분포가 되는것은 아님!
- 표본크기 n이 커질수록 정규분포에 가까워질순 있음
통계치 (statistics), 추정치(estimate)
- 평균 : $\bar X$ or $m$
- 분산 : $s^2$
- 표준편차 : $s$
- 사례수 : $n$
- 표본비율 : $\hat p$

표집분포(sampling distribution)

가설검정을 위해 필요한 가상의 분포, 이론적분포라고도 불림
- 추리통계에 있어 매우 중요한 역할을 수행함
표집분포란, 표본의 크기가 n인 표본을 반복추출한 후, 표본들의 평균으로 그린 분포
- 즉, 표본평균[ $\bar X_1,\bar X_2 \cdots \bar X_{k-1},\bar X_K$ ], 혹은 표본표준편차[ $s_1,s2 \cdots s_{k-1},s_k$ ]의 분포
표집오차(표본오차)(sampling error) : 표본의 평균과 모집단의 평균의 차이
$e_k = \bar Y_k - \mu_Y$
표준오차(standard error) : 표집오차들의 표준편차, 즉 표집분포의 표준편차
$\sigma_e=\sigma_{\bar Y}$
- (증명)
  $\sigma_e = \sqrt{\frac{\Sigma(e_k-\bar e)^2}{K}}$
  $\bar e = 0$ 이므로
  $\sigma_e = \sqrt{\frac{\Sigma e_k^2}{K}}= \sqrt{\frac{\Sigma (\bar Y_k-\mu_Y)^2}{K}}=\sigma_{\bar Y}$

중심극한정리(Central Limit Theorem)

큰수의 법칙(law of large number) : 표본집단의 크기(n)이 커질수록 표집분포의 통계값이 모집단의 모수에 가까워진다. 즉, 예측에대한 정확도가 오른다.
중심극한정리(central limit theorem) :
- 표집분포의 평균은 모집단의 평균과 같고
- 표집분포의 분산은 모집단의 분산을 표본의 크기로 나눈 것과 같으며
- 표본크기(n)가 충분히 클때(일반적으로 n>30) 모집단의 분포와 관계없이 표본평균의 분포는 정규분포가 된다.
  $\bar x_{\bar x} = \mu_x$
  $\sigma^2_{\bar x} = \sigma^2_e = \frac{\sigma^2_x}{n}$
  $\sigma_{\bar x} = \frac{\sigma_x}{\sqrt n}$
  $\bar x \sim N(\mu_x,\frac{\sigma^2_x}{n})$
(참고)증명
- 평균
  $\bar x_{\bar x} = E(\bar x) = E(\Sigma x_i/n)$
  $= E[\frac{x_1+x_2+\cdots + x_n}{n}]=\frac{1}{n}E[x_1+x_2+\cdots + x_n]$
  $= \frac{1}{n}\cdot [E(x_1)+E(x_2)+\cdots+E(x_n)]$
  $= \frac{1}{n}\cdot n \cdot \mu_x = \mu_x$
- 분산
  $\sigma^2_{\bar x}=Var(\bar x) = Var(\frac{x_1+x_2+\cdots + x_n}{n})$
  $= \frac{1}{n^2}\cdot Var(x_1+x_2+\cdots + x_n)$
  $= \frac{1}{n^2}\cdot[Var(x_1)+Var(x_2)+\cdots+Var(x_n)]$
  $= \frac{1}{n^2}\cdot n\cdot \sigma^2_x = \frac{\sigma^2_x}{n}$

편파추정치(Biased estimates)

편파추정치(biased estimates) : 모집단을 추정하기 위해 계산된 표본의 분산 $s^2_y$ 의 기댓값은 모집단의 분산 $\sigma^2_y$ 보다 작은 값을 추정하게 되는데, 이를 모집단 분산의 편파추정치라 한다.
증명과정
- $E(s^2_y)$
  - $E(s^2_y)$
    $=E(\frac{\Sigma (y_i-\bar y)^2}{n})$
    $=E(\frac{\Sigma (y_i^2-2Y_i\bar y+\bar y^2)}{n})$
    $=E(\frac{\Sigma y_i^2-2n\bar y^2+n\bar y^2}{n})$
    $=E(\frac{\Sigma y^2_i}{n})-E(\bar y^2)$
  - 따라서 $E(\frac{\Sigma y^2_i}{n})$ 과 $E(\bar y^2)$ 를 알아야함
- $E(\frac{\Sigma y^2_i}{n})$
  - $\sigma^2_y=\frac{\Sigma(y_i-\mu_y)^2}{N}$
    $=\frac{\Sigma y_i^2}{N}-\mu^2_y=E(y^2_i)-\mu^2_y$
    따라서 $E(y^2_i)=\sigma^2_y+\mu^2_y$
  - $E(\frac{\Sigma y^2_i}{n})=\frac{1}{n}\cdot \Sigma E(y^2_i)$
    $= \frac{1}{n}\cdot \Sigma (\sigma^2_y+\mu^2_y)$
    ( $\sigma_y$ 와 $\mu_y$ 는 상수이므로)
    $= \frac{1}{n}\cdot n (\sigma^2_y+\mu^2_y)$
  - $E(\frac{\Sigma y^2_i}{n}) =\sigma^2_y+\mu^2_y$
- $E(\bar y^2)$
  - $\sigma^2_{\bar y} = E(\bar y^2)-[E(\bar y)]^2$
    (중심극한정리에의해 $E(\bar y)=\mu_y$ )
    $=E(\bar y^2)-\mu^2_y$
  - $E(\bar y^2)=\sigma^2_{\bar y}+\mu^2_y$
- 다시 $E(s^2_y)$ 로 대입
  $E(s^2_y)=E(\frac{\Sigma y^2_i}{n})-E(\bar y^2)$
  $=(\sigma^2_y+\mu^2_y)-(\sigma^2_{\bar y}+\mu^2_y)$
  $=\sigma^2_y-\sigma^2_{\bar y}$
  (중심극한정리에의해 $\sigma^2_{\bar y}=\frac{\sigma^2_y}{n}$ )
  $=\sigma^2_y-\frac{\sigma^2_y}{n}$
  $=\sigma^2_y(1-\frac{1}{n})$
  $=\sigma^2_y(\frac{n-1}{n})$
- 따라서 $E(s^2_y)=\sigma^2_y(\frac{n-1}{n})$
모집단의 분산을 추정하기 위해서는 표본의 분산값인 $s^2_y$ 를 그대로 사용하면 안된다!

불편산추정치(Unbiased estimates)

정확한 모집단의 분산을 추정하기 위해선 $E(s^2_y)$ 으로 $E(\frac{\Sigma (y_i-\bar y)^2}{n})$ 을 사용하면 안되고, $E(\frac{\Sigma (y_i-\bar y)^2}{n-1})$ 을 사용해야함.
이를 분산의 불편차추정치(unbiased estimates)라 부른다.
편파추정치인 $s^2$ 와 구분하기 위해 $s'^2$ , $s_u^2$ , $\delta^2$ , $\sigma_{n-1}$ 등으로 표기하긴하지만...
일반적으로 $s^2$ 이라하면 불편산추정치를 의미함.

자유도(Degree of freedom)

불편차추정치를 위한 표본의 분산 계산 공식의 분모 (n-1)을 자유도라 지칭함.
기호로는 $df$ 또는 $\upsilon$ 으로 표기함.
자유도란 통계적 추정을 할때 표본이 되는 자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말함. 즉, n-1값
- 예를 들어, 표본의 크기가 4인 표본에서 3개는 어떤 점수라도 가질수 있지만, 나머지 1개의 값은 편차의 합이 0이 되게 하기 위해서는 어떠한 값도 자유롭게 가지지 못하고 고정된 값을 가짐.
  따라서 크기가 4인 표본의 자유도는 3이 된다.
- 또 다른 예로 4개 집단의 피험자들이 각각 30명씩 random하게 배치됐을때, 자유도는 다음과 같음.
  - 전체자유도 : $df_{total}=(4\times30)-1=119$
  - 집단내 자유도 : $df_{within}=4\times(30-1)=116$
  - 집단간 자유도 : $df_{between}=4-1=3$

Kyung Jae, Cheong

일 때문에 포스팅은 잠시 쉬어요 ㅠ 바쁘다 바빠 모두들 화이팅! // Machine Learning (AI) Engineer & BackEnd Engineer (Entry)

기초통계학 - (3-2) 추리통계-모집단과 표본

기초통계학(요약)

모집단과 표본

모집단분포,표본분포

표집분포(sampling distribution)

중심극한정리(Central Limit Theorem)

편파추정치(Biased estimates)

불편산추정치(Unbiased estimates)

자유도(Degree of freedom)

기초통계학 - (3-1) 추리통계-기본개념

기초통계학 - (4-1) 가설검정-기본개념

0개의 댓글