[036] 기초통계 - 모집단과 표본 분포 / 기초③

이연희·2023년 10월 9일
0

Chapter
📗 5. 모집단과 표본 분포
📝 (1) 모집단(Population)과 표본(Sample)
📝 (2) 표본 분포

.
.

📗5. 모집단과 표본 분포

📝(1) 모집단(Population)과 표본(Sample)

모집단표본
평균μ\muXX
분산σ2\sigma^2s2s^2

.

1) 표본추출(Sampling)

모집단으로부터 표본을 추출하는 것, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론하고자함

  • 복원추출: 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출될 수 있다.
  • 비복원추출: 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법
  • Random Sampling): 모집단에서 데이터를 추출할 때 편향되지 않도록 각 개체가 모두 동일한 확률로 추출하는 방법

그런데 데이터가 불균형 데이터(Imbalanced Data)일 경우 문제가 생긴다! 이럴 때에는 Sampling 기법을 통하여 해결하거나, 모델을 통한 성능을 개선해야 한다. 이번 시간에는 Sampling 기법에 대해서 알아본다.

2) Sampling 기법 - 관심 대상의 비율이 낮은 경우

  • Over Sampling
    타켓 데이터의 적은 class의 수를 많은 class의 비율만큼 증가 시킨다.(일정 비율로 복원추출하는 개념)
    과도 적합의 문제가 발생할 수 있다는 문제가 있다.
  • Under sampling
    타켓 데이터의 많은 class의 수를 적은 class의 비율만큼 감소시킨다.
    임의로 뽑은 데이터가 편향될 수 있고, 모형의 성능이 떨어질 수 있다는 문제가 있다.
    .
    .

📝(2) 표본 분포

1) 통계량(statistic)

표본에 기초하여 계산되는 수치
대표적으로 Xˉ\bar{X}s2s^2가 있다.

  • 표본분포(sampling distribution): 통계량들이 이루는 표본 분포
  • 표본 평균Xˉ\bar{X}의 기댓값과 분산
    E[Xˉ]=E[1n(x1+x2+...+xn)]=1n(E[x1]+E[x2]+...E[xn])=1nnμ=μE[\bar{X}]=E[\frac{1}{n}(x_{1}+x_{2}+...+x_{n})]=\frac{1}{n}(E[x_{1}]+E[x_{2}]+...E[x_{n}])=\frac{1}{n}n\mu=\mu
    var[Xˉ]=var[1n(x1+x2+...+xn)]=1n2(var[x1]+var[x2]+...+var[xn])=1n2nσ2=σ2nvar[\bar{X}]=var[\frac{1}{n}(x_{1}+x_{2}+...+x_{n})]=\frac{1}{n^2}(var[x_{1}]+var[x_{2}]+...+var[x_{n}])=\frac{1}{n^2}n\sigma^2=\frac{\sigma^2}{n}

2) 표본분포

모집단의 분포가 N(μ,σ2)N(\mu,\sigma^2)이라고 할 때,
확률표본 X1,X2,X3,...,XnX_{1}, X_{2}, X_{3},...,X_{n}은 ~ iidiid N(μ,σ2)N(\mu,\sigma^2) 를 따른다.
Xˉ\bar{X} ~ N(μ,σ2n)N(\mu, \frac{\sigma^2}{n}),
ZZ ~ N(0,1)N(0,1)

  • 중심극한 정리: 평균이 μ\mu이고 분산이σ2\sigma^2인 임의의 모집단에서 랜덤표본 X1,X2,X3,...,XnX_{1}, X_{2}, X_{3},...,X_{n}을 추출할 때 표본의 크기 n이 충분히 크면(n30n \geq 30), 표본 평균 Xˉ\bar{X}는 근사적으로 정규분포 N(μ,σ2n)N(\mu, \frac{\sigma^2}{n})를 따른다.
    Z=Xˉμσ/nZ=\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} ~ N(0,1)N(0,1)

3) 카이제곱 분포(Chi-square distribution)

확률 변수 Z12,Z22,...,Zn2Z_{1}^2, Z_{2}^2, ..., Z_{n}^2가 표준 정규 분포를 따른다면, 확률 변수 Z는 Z12+Z22+...+Zn2Z_{1}^2+Z_{2}^2+...+Z_{n}^2

  • ZZ ~ χ2(ν)\chi^2(\nu), ZZ가 카이제곱분포를 따를 때
    f(x:ν)=12ν/2Γ(ν/2)xν21ex/2,(x>0)f(x:\nu) = \frac{1}{2^{\nu/2}\Gamma(\nu/2)}x^{\frac{\nu}{2}-1}e^{-x/2}, (x>0)
    E[X]=νE[X]=\nu
    var[X]=2νvar[X]=2\nu

  • 카이제곱 분포는 감마분포에서 α=ν2,λ=2\alpha=\frac{\nu}{2}, \lambda=2와 같다.

  • 카이제곱 분포는 범주형 자료분석에서 활용한다.

  • 자유도(df): 표본수-제약조건의 수 또는 표본수-추정해야 하는 모수의 수를 의미하며 일반적으로 n-1을 사용한다.
    카이제곱 분포는 자유도 ν\nu의 크기에 따라 모양이 달라진다.
    카이제곱 분포는 자유도가 커질수록 분포가 좌우대칭 형태가 된다.(표준정규분포에 근사한다.)
    ν30\nu \geq 30이면 확률을 근사적으로 정규분포로 구할 수 있다.

4) T분포(t-distribution)

Z ~ N(0,1)을 따르고, Y ~ χ2\chi^2일 때, T=zY/νT=\frac{z}{\sqrt{Y/\nu}}를 따른다.

  • 만약 확률변수 X가 정규분포를 따르고 모표준편차 σ\sigma를 안다면, z=xμσ/nz=\frac{x-\mu}{\sigma/n} ~ N(0,1)N(0,1)
  • 만약 모표준편차 σ\sigma를 모른다면, σ\sigma를 대신해서 표본표준편차 s를 이용하여 확률변수 Z를 정의한다.
    t=xμσ/nt=\frac{x-\mu}{\sigma/n} ~ t(ν)t(\nu), 여기서 ν\nu의 자유도는 n-1이다.

5) F분포(F-distribution)

서로 독립인 두 정규모집단의 분산 또는 표준편차들의 비율에 대한 통계적 추론, 분산분석 등에 활용된다.

  • Y1Y_{1} ~ χ2(ν2)\chi^2(\nu_{2}), Y2Y_{2} ~ χ2(ν2)\chi^2(\nu_{2}) 이면, FF ~ Y1/ν1Y2/ν2,(F>0)\frac{Y_{1}/\nu_{1}}{Y_{2}/\nu_{2}}, (F>0)
  • 두 개의 독립적인 모집단 (Y1,Y2)(Y_{1},Y_{2})으로부터 각각 표본을 추출했을 때 Y1Y_{1}~(n1)s12σ12\frac{(n-1)s_{1}^2}{\sigma_{1}^2}~χ2(n11)\chi^2(n_{1}-1), Y2Y_{2}~(n1)s22σ22\frac{(n-1)s_{2}^2}{\sigma_{2}^2}~χ2(n21)\chi^2(n_{2}-1)
    F분포는 아래와 같다.
    F=Y1/ν1Y2/ν2=(n1)s2σ12/(n1)(n1)s2σ12/(n1)=s12/σ12s22/σ22F=\frac{Y_{1}/\nu{1}}{Y_{2}/\nu{2}}=\frac{\frac{(n-1)s^2}{\sigma_{1}^2}/(n-1)}{\frac{(n-1)s^2}{\sigma_{1}^2}/(n-1)} = \frac{s_{1}^2/\sigma_{1}^2}{s_{2}^2/\sigma_{2}^2} ~ F(n11,n21)F(n_{1}-1, n_{2}-1)

❗참고: 위의 연속확률분포들의 확률밀도함수 그래프들은 모두 위키백과에서 얻었습니다.

.
.
.
.

profile
안녕하세요, 데이터 공부를 하고 있습니다.

0개의 댓글