[TIL] Day 9 - 인공지능 수학(6)

기역의궁전·2021년 5월 4일

dev2_TIL

목록 보기

10/18

표본분포(sampling distribution)

표본의 평균은 표본의 선택에 따라 달라짐
$\rightarrow$ 표본평균은 확률변수라고 할 수 있음.
$\rightarrow$ 확률분포를 가짐.
$\rightarrow$ 따라서 통계량(표본의 특성값)의 확률분포를 표본분포라고 한다.

표본평균( $\overline{X}$ )의 분포

평균 : $\mu$ , 분산 : $\sigma^2$ 인 정규모집단에서 n개를 추출한 표본에 대해
{ $x_1,x_2,x_2, ... , x_n$ }

표본평균 $\overline{X} = \frac{1}{n}\sum_{i=1}^{n}x_i$

표본평균의 분포 $\overline{X}\sim N(\mu, \frac{\sigma^2}{n})$

$\overline{X}$ = 표본평균을 확률 변수로 갖는 값

$N$ -> 정규분포

평균 = $\mu$

분산 = $\frac{\sigma^2}{n}$

import numpy as np
xbars = [np.mean(np.random.normal(loc=10,scale=3,size=10)) for _ in range(10000)]
# loc = mu, scale = sigma, size = n
print(np.mean(xbars))
print(np.var(xbars))

중심극한정리(Central limit theorem)

평균 : $\mu$ , 분산 : $\sigma^2$ 인 어느 모집단이든 n개를 추출한 표본에 대해
{ $x_1,x_2,x_2, ... , x_n$ }

표본평균 $\overline{X} = \frac{1}{n}\sum_{i=1}^{n}x_i$

n이 충분히 클 경우 $(n\geq30)$
근사적으로 $\quad \overline{X}\sim N(\mu, \frac{\sigma^2}{n})$

n이 커질수록 근사적으로 결국 정규분포에 따른다.

$\overline{X}$ = 표본평균을 확률 변수로 갖는 값

$N$ -> 정규분포

평균 = $\mu$

분산 = $\frac{\sigma^2}{n}$

import numpy as np
n = 10
xbars = [np.mean(np.random.rand(n)*10 for _ in range(10000)]
print(np.mean(xbars))
print(np.var(xbars))

(표본평균을 이용한) 모평균( $\mu$ )의 추정

모집단이 정규분포 $\rightarrow$ 표본평균을 모평균( $\mu$ )를 추정에 사용

모집단이 대표본 $\rightarrow$ '중심극한정리'에 따라 표본평균이 정규분포에 따름을 이용하여 추정

점 추정(추정값)

표본평균 $\overline{X} = \frac{1}{n}\sum_{i=1}^{n}x_i$ $\approx$ $\mu$
np.mean(list) #표본평균이 점 추정값이 됨 -> 모평균에 가까움

구간 추정

표본을 100번 뽑으면 $100(1-\alpha)$ %만큼은 해당 신뢰구간에 $\mu$ 가 있다고 추정한다.

모평균 $\mu$ 의 $100(1-\alpha)$ % 신뢰구간(confidence interval)
: $\mu$ 의 추정량 ± $Z_{\alpha/2}$ * (추정량의 표준편차)

$\mu$ 의 추정량 $\rightarrow$ 점 추정 $\rightarrow$ $\overline{X} = \frac{1}{n}\sum_{i=1}^{n}x_i$
$Z$ $\rightarrow$ 표준정규분포
추정량의 표준편차 $\rightarrow$ 표본표준편차
$\rightarrow$ 정규모집단에서 표본의 분산에 제곱근 $\rightarrow$ $\sqrt{\frac{\sigma^2}{n}}$

$\Rightarrow$ $\overline{X}-Z_{\alpha/2}\sqrt{\frac{\sigma^2}{n}}$ $\;$ , $\;$ $\overline{X}+Z_{\alpha/2}\sqrt{\frac{\sigma^2}{n}}$

BUT, 정규분포가 아니거나 표준편차 $\sigma$ 를 모르면 알 수 없다 -> 실용적이지 못함

따라서 표본 크기가 클 때 '중심극한정리'를 이용한다.
$\sigma \rightarrow s$
$\Rightarrow$ $\overline{X}-Z_{\alpha/2}\sqrt{\frac{S^2}{n}}$ $\;$ , $\;$ $\overline{X}+Z_{\alpha/2}\sqrt{\frac{S^2}{n}}$

w = list(map(int, np.random.rand(30)*10+1)) #1~10까지 랜덤 30개의 자연수
xbar = np.mean(w)  #표본평균
sd=np.std(w,ddof=1) #표본표준편차
alpha = 0.05  # 알파 주어짐
z_alpha = scipy.stats.norm.ppf(1-alpha/2)  # Z_alpha/2
# 위에 계산한 값들로 구간 추정 계산
print(xbar-z_alpha*np.sqrt(sd**2/n),xbar+z_alpha*np.sqrt(sd**2/n))

(표본비율을 이용한) 모비율( $p$ )의 추정

점 추정

크기가 n개의 표본에서 어떤 사건이 일어날 횟수를 확률변수 X라고 할 때, 그 사건에 대한
표본비율 $\hat{p} = \frac{X}{n}$ 표본비율이 점 추정값이 됨 -> 모비율에 가까움

구간 추정

표본비율 $\hat{p} = \frac{X}{n}$ 에서 확률변수 $X$ 는 확률이 $p$ 인 $n$ 번의 독립시행에서 그 사건이 일어난 횟수이므로 이항분포 $B(n,p)$ 를 따른다.
이항분포 $B(n,p)$ 를 따르는 확률변수 X의 평균과 분산은 $E(x) = np, V(x)=np(1-p)$

참고
https://www.youtube.com/watch?v=HUKqp0ifeSc
근사적으로 표준정규분포 N(0,1)을 따른다.

$n\hat{p} > 5$ , $n(1-\hat{p}) > 5 \;$ n이 충분히 클 때,
모비율 P의 100(1- $\alpha$ )% 신뢰구간(confidence interval)은
$\Rightarrow \; \hat{p} - Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p}}{n}} \;,\;\hat{p} + Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p}}{n}}$

통계적 가설 검정

표본평균의 값은 표본을 추출 할 때마다 다르다. -> 검정이 필요하다.

검정 단계

$H_0 :\;$ 귀무가설, $\;H_1 :\;$ 대립가설 선정
유의수준 $\alpha$ 설정 (ex. $\alpha = 0.05$ )
검정통계량
기각역 or 임계값 계산(구간값)
주어진 데이터로부터 유의성 판단

모평균의 검정

대립가설 $\;H_1$

문제에서 검정하고자 하는 것이 무엇인지 파악
대립 가설 채택을 위한 통계적 증거 확보
증거가 없으면 귀무가설 $H_0$ 채택
$H_0$ : $\mu = \mu_0$
대립가설은 아래 유형 3가지 중 하나
$H_1$ : $\mu > \mu_0$
$H_1$ : $\mu < \mu_0$
$H_1$ : $\mu \neq \mu_0$

$\alpha$ 는 주어지거나 임의로 설정
검정통계량

모평균 검정을 위한 검정통계량은 표본평균 $\overline{X}$ 값을 이용
$n>30 , Z = \frac{\overline{X}-\mu}{s/\sqrt{n}}$ ~ $N(0,1)$
n이 충분히 클 때, 표준정규분포를 따른다. (중심극한정리)
단, 모집단이 정규모집단이며, 모표준편차( $\sigma$ )가 주어진 경우는
$Z = \frac{\overline{X}-\mu}{\sigma/\sqrt{n}}$ ~ $N(0,1)$

기각역

대립가설에 따라 정해진다.
ex) $H_0 : \mu = 10.5$
유의수준 = $\alpha$
기각역
$H_1$ : $\mu > \mu_0 \; \Rightarrow Z>z_\alpha$
$H_1$ : $\mu < \mu_0 \; \Rightarrow Z<-z_\alpha$
$H_1$ : $\mu \neq \mu_0 \; \Rightarrow |Z|>z_{\alpha/2}$

만약 기각역 범위가 옳다면, 귀무가설을 기각할 수 있다.
$\rightarrow H_1$ 대립가설이 옳다.

엔트로피(entropy)

자기정보(self-information) : $i(A)$

사건 A에 대하여, 확률을 가지고 정보의 양을 판단 및 표현
$i(A) = log_b(\frac{1}{P(A)}) = -log_bP(A)$
(b = 정보단위, b=2bit, b=e:nats, b=10:hartleys)

확률이 높은 사건 $\rightarrow$ 정보가 많지 않음 $i(A)$ 값이 낮다
확률이 낮은 사건 $\rightarrow$ 정보가 많음 $i(A)$ 값이 높다
따라서 $log$ 값을 취한다.

특성

사건 A,B의 대해, AB동시에 일어나는 자기정보 $i(AB)$ 에 대해서
$i(AB) = log_b(\frac{1}{P(A)P(B)}) = log_b(\frac{1}{P(A)}) + log_b(\frac{1}{P(B)})$
$=i(A) + i(B)$
$P(H) = \frac{1}{8}, P(T) = \frac{7}{8}$ 일 때, $\quad i(H) = 3$ 비트 $, i(T) = 0.193$ 비트

엔트로피(entropy) : $H(x)$

자기정보 $i(A)$ 의 평균
사건 A에 대하여, $H(x) = \sum_{j}P(A_j)i(A_j) = -\sum_{j}P(A_j)log_2P(A_j)$

특성

$0\leq H(X) \leq log_2k$ ( $k$ = 사건의 수)

엔트로피 활용

평균 비트 수(가각의 정보)를 표현
데이터 압축에 사용

교차 엔트로피 (cross entropy)

확률분포 $P,Q$ 가 있을 때, 사건들의 집합 $S=$ { $A_j$ }에 대하여

$P(A_j)$ : 확률분포 $P$ 에서 사건 $A_j$ 가 발생할 확률
$Q(A_j)$ : 확률분포 $Q$ 에서 사건 $A_j$ 가 발생할 확률 (새로운 확률분포)
$i(A_j)$ : 확률분포 $Q$ 에서 사건 $A_j$ 의 자기정보
$i(A_j) = -log_2Q(A_j)$ (자기정보 $A_j$ 를 표현하는 비트 수 )

$H(P,Q)$
사건들의 집합( $S$ )에서 확률분포 $P$ 에 대한 확률분포 $Q$ 의 교차 엔트로피
$\rightarrow$ 확률분포 $P$ 에서 $i(A_j)$ 의 평균
$\rightarrow$ $H(P,Q) = \sum_{j}P(A_j)i(A_j) = -\sum_{j}P(A_j)log_2Q(A_j)$
$\quad\quad\quad\quad\quad=-\sum_{x\in X}P(x)log_2Q(x)$

$H(P,Q)$ 는 정확한 확률분포 $P$ 를 사용했을 떄의 비트 수 보다 크게 됨.
$\Rightarrow \quad P,Q$ 값이 얼마나 비슷한지를 표현

분류문제에서의 손실함수

분류문제의 정답 $(P)$ 과 측정값 $(Q)$ 이 얼마나 다른가의 척도가 되어주는 손실함수

제곱합
$\sum(P_i-Q_i)^2$
확률이 다를수록 큰값을 가진다.
but, 학습속도가 느리다.
교차 엔트로피 $H(P,Q)$
확률이 다를수록 큰값을 가진다.
학습속도가 빨라서 분류문제에서 주로 측정값과의 차이를 측정할 때 사용
H(P,Q)는 정답과 측정값의 차이가 클수록 값이 크다. 0에서 멀어진다.

기역의궁전

K-PALACE

이전 포스트

[TIL] Day 8 - 인공지능 수학(5)

다음 포스트

[TIL] Day 9 - 인공지능 수학(6)

dev2_TIL

표본분포(sampling distribution)

표본평균( $\overline{X}$ )의 분포

중심극한정리(Central limit theorem)

(표본평균을 이용한) 모평균( $\mu$ )의 추정

점 추정(추정값)

구간 추정

(표본비율을 이용한) 모비율( $p$ )의 추정

점 추정

구간 추정

통계적 가설 검정

검정 단계

모평균의 검정

엔트로피(entropy)

자기정보(self-information) : $i(A)$

특성

엔트로피(entropy) : $H(x)$

특성

엔트로피 활용

교차 엔트로피 (cross entropy)

분류문제에서의 손실함수

[TIL] Day 8 - 인공지능 수학(5)

[TIL] Day 10 - git

0개의 댓글

관련 채용 정보

[TIL] Day 9 - 인공지능 수학(6)

dev2_TIL

표본분포(sampling distribution)

표본평균(X‾\overline{X}X)의 분포

중심극한정리(Central limit theorem)

(표본평균을 이용한) 모평균(μ\muμ)의 추정

점 추정(추정값)

구간 추정

(표본비율을 이용한) 모비율(ppp)의 추정

점 추정

구간 추정

통계적 가설 검정

검정 단계

모평균의 검정

엔트로피(entropy)

자기정보(self-information) : i(A)i(A)i(A)

특성

엔트로피(entropy) : H(x)H(x)H(x)

특성

엔트로피 활용

교차 엔트로피 (cross entropy)

분류문제에서의 손실함수

[TIL] Day 8 - 인공지능 수학(5)

[TIL] Day 10 - git

0개의 댓글

관련 채용 정보

표본평균( $\overline{X}$ )의 분포

(표본평균을 이용한) 모평균( $\mu$ )의 추정

(표본비율을 이용한) 모비율( $p$ )의 추정

자기정보(self-information) : $i(A)$

엔트로피(entropy) : $H(x)$