[TIL] Day 9 - 인공지능 수학(6)

기역의궁전·2021년 5월 4일
0

dev2_TIL

목록 보기
10/18

표본분포(sampling distribution)

표본의 평균은 표본의 선택에 따라 달라짐
\rightarrow 표본평균은 확률변수라고 할 수 있음.
\rightarrow 확률분포를 가짐.
\rightarrow 따라서 통계량(표본의 특성값)의 확률분포를 표본분포라고 한다.

표본평균(X\overline{X})의 분포

평균 : μ\mu, 분산 : σ2\sigma^2정규모집단에서 n개를 추출한 표본에 대해
{x1,x2,x2,...,xnx_1,x_2,x_2, ... , x_n}

표본평균 X=1ni=1nxi\overline{X} = \frac{1}{n}\sum_{i=1}^{n}x_i

표본평균의 분포 XN(μ,σ2n)\overline{X}\sim N(\mu, \frac{\sigma^2}{n})

  • X\overline{X} = 표본평균을 확률 변수로 갖는 값
  • NN -> 정규분포
  • 평균 = μ\mu
  • 분산 = σ2n\frac{\sigma^2}{n}
import numpy as np
xbars = [np.mean(np.random.normal(loc=10,scale=3,size=10)) for _ in range(10000)]
# loc = mu, scale = sigma, size = n
print(np.mean(xbars))
print(np.var(xbars))

중심극한정리(Central limit theorem)

평균 : μ\mu, 분산 : σ2\sigma^2어느 모집단이든 n개를 추출한 표본에 대해
{x1,x2,x2,...,xnx_1,x_2,x_2, ... , x_n}

표본평균 X=1ni=1nxi\overline{X} = \frac{1}{n}\sum_{i=1}^{n}x_i

n이 충분히 클 경우 (n30)(n\geq30)
근사적으로 XN(μ,σ2n)\quad \overline{X}\sim N(\mu, \frac{\sigma^2}{n})

  • n이 커질수록 근사적으로 결국 정규분포에 따른다.
  • X\overline{X} = 표본평균을 확률 변수로 갖는 값
  • NN -> 정규분포
  • 평균 = μ\mu
  • 분산 = σ2n\frac{\sigma^2}{n}
import numpy as np
n = 10
xbars = [np.mean(np.random.rand(n)*10 for _ in range(10000)]
print(np.mean(xbars))
print(np.var(xbars))

(표본평균을 이용한) 모평균(μ\mu)의 추정

  • 모집단이 정규분포 \rightarrow 표본평균을 모평균(μ\mu)를 추정에 사용
  • 모집단이 대표본 \rightarrow '중심극한정리'에 따라 표본평균이 정규분포에 따름을 이용하여 추정

점 추정(추정값)

표본평균 X=1ni=1nxi\overline{X} = \frac{1}{n}\sum_{i=1}^{n}x_i \approx μ\mu
np.mean(list) #표본평균이 점 추정값이 됨 -> 모평균에 가까움

구간 추정

표본을 100번 뽑으면 100(1α)100(1-\alpha)%만큼은 해당 신뢰구간에 μ\mu가 있다고 추정한다.

모평균 μ\mu100(1α)100(1-\alpha)% 신뢰구간(confidence interval)
: μ\mu의 추정량 ± Zα/2Z_{\alpha/2} * (추정량의 표준편차)

  • μ\mu의 추정량 \rightarrow 점 추정 \rightarrow X=1ni=1nxi\overline{X} = \frac{1}{n}\sum_{i=1}^{n}x_i
  • ZZ \rightarrow 표준정규분포
  • 추정량의 표준편차 \rightarrow 표본표준편차
    \rightarrow 정규모집단에서 표본의 분산에 제곱근 \rightarrow σ2n\sqrt{\frac{\sigma^2}{n}}

\Rightarrow XZα/2σ2n\overline{X}-Z_{\alpha/2}\sqrt{\frac{\sigma^2}{n}}   \; ,   \;X+Zα/2σ2n\overline{X}+Z_{\alpha/2}\sqrt{\frac{\sigma^2}{n}}

  • BUT, 정규분포가 아니거나 표준편차 σ\sigma를 모르면 알 수 없다 -> 실용적이지 못함

따라서 표본 크기가 클 때 '중심극한정리'를 이용한다.
σs\sigma \rightarrow s
\Rightarrow XZα/2S2n\overline{X}-Z_{\alpha/2}\sqrt{\frac{S^2}{n}}   \; ,   \;X+Zα/2S2n\overline{X}+Z_{\alpha/2}\sqrt{\frac{S^2}{n}}

w = list(map(int, np.random.rand(30)*10+1)) #1~10까지 랜덤 30개의 자연수
xbar = np.mean(w)  #표본평균
sd=np.std(w,ddof=1) #표본표준편차
alpha = 0.05  # 알파 주어짐
z_alpha = scipy.stats.norm.ppf(1-alpha/2)  # Z_alpha/2
# 위에 계산한 값들로 구간 추정 계산
print(xbar-z_alpha*np.sqrt(sd**2/n),xbar+z_alpha*np.sqrt(sd**2/n))

(표본비율을 이용한) 모비율(pp)의 추정

점 추정

크기가 n개의 표본에서 어떤 사건이 일어날 횟수를 확률변수 X라고 할 때, 그 사건에 대한
표본비율 p^=Xn\hat{p} = \frac{X}{n} 표본비율이 점 추정값이 됨 -> 모비율에 가까움

구간 추정

표본비율 p^=Xn\hat{p} = \frac{X}{n}에서 확률변수 XX는 확률이 ppnn번의 독립시행에서 그 사건이 일어난 횟수이므로 이항분포 B(n,p)B(n,p)를 따른다.
이항분포 B(n,p)B(n,p)를 따르는 확률변수 X의 평균과 분산은 E(x)=np,V(x)=np(1p)E(x) = np, V(x)=np(1-p)

참고
https://www.youtube.com/watch?v=HUKqp0ifeSc
근사적으로 표준정규분포 N(0,1)을 따른다.

np^>5n\hat{p} > 5 , n(1p^)>5  n(1-\hat{p}) > 5 \; n이 충분히 클 때,
모비율 P의 100(1-α\alpha)% 신뢰구간(confidence interval)은
  p^Zα/2p^(1p^n  ,  p^+Zα/2p^(1p^n\Rightarrow \; \hat{p} - Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p}}{n}} \;,\;\hat{p} + Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p}}{n}}

통계적 가설 검정

표본평균의 값은 표본을 추출 할 때마다 다르다. -> 검정이 필요하다.

검정 단계

  1. H0:  H_0 :\;귀무가설,   H1:  \;H_1 :\;대립가설 선정
  2. 유의수준 α\alpha 설정 (ex. α=0.05\alpha = 0.05)
  3. 검정통계량
  4. 기각역 or 임계값 계산(구간값)
  5. 주어진 데이터로부터 유의성 판단

모평균의 검정

  1. 대립가설   H1\;H_1
  • 문제에서 검정하고자 하는 것이 무엇인지 파악
  • 대립 가설 채택을 위한 통계적 증거 확보
  • 증거가 없으면 귀무가설 H0H_0 채택
    H0H_0 : μ=μ0\mu = \mu_0
    대립가설은 아래 유형 3가지 중 하나
    H1H_1 : μ>μ0\mu > \mu_0
    H1H_1 : μ<μ0\mu < \mu_0
    H1H_1 : μμ0\mu \neq \mu_0
  1. α\alpha는 주어지거나 임의로 설정

  2. 검정통계량

  • 모평균 검정을 위한 검정통계량은 표본평균 X\overline{X}값을 이용
  • n>30,Z=Xμs/nn>30 , Z = \frac{\overline{X}-\mu}{s/\sqrt{n}} ~ N(0,1)N(0,1)
    n이 충분히 클 때, 표준정규분포를 따른다. (중심극한정리)
    단, 모집단이 정규모집단이며, 모표준편차(σ\sigma)가 주어진 경우는
    Z=Xμσ/nZ = \frac{\overline{X}-\mu}{\sigma/\sqrt{n}} ~ N(0,1)N(0,1)
  1. 기각역
  • 대립가설에 따라 정해진다.
    ex) H0:μ=10.5H_0 : \mu = 10.5
    유의수준 = α\alpha
    기각역
    H1H_1 : μ>μ0  Z>zα\mu > \mu_0 \; \Rightarrow Z>z_\alpha
    H1H_1 : μ<μ0  Z<zα\mu < \mu_0 \; \Rightarrow Z<-z_\alpha
    H1H_1 : μμ0  Z>zα/2\mu \neq \mu_0 \; \Rightarrow |Z|>z_{\alpha/2}

만약 기각역 범위가 옳다면, 귀무가설을 기각할 수 있다.
H1\rightarrow H_1 대립가설이 옳다.

엔트로피(entropy)

자기정보(self-information) : i(A)i(A)

사건 A에 대하여, 확률을 가지고 정보의 양을 판단 및 표현
i(A)=logb(1P(A))=logbP(A)i(A) = log_b(\frac{1}{P(A)}) = -log_bP(A)
(b = 정보단위, b=2bit, b=e:nats, b=10:hartleys)

  • 확률이 높은 사건 \rightarrow 정보가 많지 않음 i(A)i(A)값이 낮다
  • 확률이 낮은 사건 \rightarrow 정보가 많음 i(A)i(A)값이 높다
  • 따라서 loglog값을 취한다.

특성

  • 사건 A,B의 대해, AB동시에 일어나는 자기정보 i(AB)i(AB)에 대해서
    i(AB)=logb(1P(A)P(B))=logb(1P(A))+logb(1P(B))i(AB) = log_b(\frac{1}{P(A)P(B)}) = log_b(\frac{1}{P(A)}) + log_b(\frac{1}{P(B)})
    =i(A)+i(B)=i(A) + i(B)
  • P(H)=18,P(T)=78P(H) = \frac{1}{8}, P(T) = \frac{7}{8} 일 때, i(H)=3\quad i(H) = 3비트,i(T)=0.193, i(T) = 0.193비트

엔트로피(entropy) : H(x)H(x)

자기정보 i(A)i(A)의 평균
사건 A에 대하여, H(x)=jP(Aj)i(Aj)=jP(Aj)log2P(Aj)H(x) = \sum_{j}P(A_j)i(A_j) = -\sum_{j}P(A_j)log_2P(A_j)

특성

  • 0H(X)log2k0\leq H(X) \leq log_2k (kk = 사건의 수)

엔트로피 활용

  • 평균 비트 수(가각의 정보)를 표현
  • 데이터 압축에 사용

교차 엔트로피 (cross entropy)

확률분포 P,QP,Q가 있을 때, 사건들의 집합 S=S={AjA_j}에 대하여

  • P(Aj)P(A_j) : 확률분포 PP에서 사건 AjA_j가 발생할 확률
  • Q(Aj)Q(A_j) : 확률분포 QQ에서 사건 AjA_j가 발생할 확률 (새로운 확률분포)
  • i(Aj)i(A_j) : 확률분포 QQ에서 사건 AjA_j의 자기정보
    i(Aj)=log2Q(Aj)i(A_j) = -log_2Q(A_j)(자기정보 AjA_j를 표현하는 비트 수 )

H(P,Q)H(P,Q)
사건들의 집합(SS)에서 확률분포 PP에 대한 확률분포 QQ의 교차 엔트로피
\rightarrow 확률분포 PP에서 i(Aj)i(A_j)의 평균
\rightarrow H(P,Q)=jP(Aj)i(Aj)=jP(Aj)log2Q(Aj)H(P,Q) = \sum_{j}P(A_j)i(A_j) = -\sum_{j}P(A_j)log_2Q(A_j)
=xXP(x)log2Q(x)\quad\quad\quad\quad\quad=-\sum_{x\in X}P(x)log_2Q(x)

H(P,Q)H(P,Q)는 정확한 확률분포 PP를 사용했을 떄의 비트 수 보다 크게 됨.
P,Q\Rightarrow \quad P,Q값이 얼마나 비슷한지를 표현

분류문제에서의 손실함수

분류문제의 정답(P)(P)과 측정값(Q)(Q)이 얼마나 다른가의 척도가 되어주는 손실함수

  • 제곱합
    (PiQi)2\sum(P_i-Q_i)^2
    확률이 다를수록 큰값을 가진다.
    but, 학습속도가 느리다.

  • 교차 엔트로피 H(P,Q)H(P,Q)
    확률이 다를수록 큰값을 가진다.
    학습속도가 빨라서 분류문제에서 주로 측정값과의 차이를 측정할 때 사용
    H(P,Q)는 정답과 측정값의 차이가 클수록 값이 크다. 0에서 멀어진다.

0개의 댓글