표본분포(sampling distribution)
표본의 평균은 표본의 선택에 따라 달라짐
→ 표본평균은 확률변수라고 할 수 있음.
→ 확률분포를 가짐.
→ 따라서 통계량(표본의 특성값)의 확률분포를 표본분포라고 한다.
표본평균(X)의 분포
평균 : μ, 분산 : σ2인 정규모집단에서 n개를 추출한 표본에 대해
{x1,x2,x2,...,xn}
표본평균 X=n1∑i=1nxi
표본평균의 분포 X∼N(μ,nσ2)
- X = 표본평균을 확률 변수로 갖는 값
- N -> 정규분포
- 평균 = μ
- 분산 = nσ2
import numpy as np
xbars = [np.mean(np.random.normal(loc=10,scale=3,size=10)) for _ in range(10000)]
print(np.mean(xbars))
print(np.var(xbars))
중심극한정리(Central limit theorem)
평균 : μ, 분산 : σ2인 어느 모집단이든 n개를 추출한 표본에 대해
{x1,x2,x2,...,xn}
표본평균 X=n1∑i=1nxi
n이 충분히 클 경우 (n≥30)
근사적으로 X∼N(μ,nσ2)
- n이 커질수록 근사적으로 결국 정규분포에 따른다.
- X = 표본평균을 확률 변수로 갖는 값
- N -> 정규분포
- 평균 = μ
- 분산 = nσ2
import numpy as np
n = 10
xbars = [np.mean(np.random.rand(n)*10 for _ in range(10000)]
print(np.mean(xbars))
print(np.var(xbars))
(표본평균을 이용한) 모평균(μ)의 추정
- 모집단이 정규분포 → 표본평균을 모평균(μ)를 추정에 사용
- 모집단이 대표본 → '중심극한정리'에 따라 표본평균이 정규분포에 따름을 이용하여 추정
점 추정(추정값)
표본평균 X=n1∑i=1nxi ≈ μ
np.mean(list) #표본평균이 점 추정값이 됨 -> 모평균에 가까움
구간 추정
표본을 100번 뽑으면 100(1−α)%만큼은 해당 신뢰구간에 μ가 있다고 추정한다.
모평균 μ의 100(1−α)% 신뢰구간(confidence interval)
: μ의 추정량 ± Zα/2 * (추정량의 표준편차)
- μ의 추정량 → 점 추정 → X=n1∑i=1nxi
- Z → 표준정규분포
- 추정량의 표준편차 → 표본표준편차
→ 정규모집단에서 표본의 분산에 제곱근 → nσ2
⇒ X−Zα/2nσ2 , X+Zα/2nσ2
- BUT, 정규분포가 아니거나 표준편차 σ를 모르면 알 수 없다 -> 실용적이지 못함
따라서 표본 크기가 클 때 '중심극한정리'를 이용한다.
σ→s
⇒ X−Zα/2nS2 , X+Zα/2nS2
w = list(map(int, np.random.rand(30)*10+1))
xbar = np.mean(w)
sd=np.std(w,ddof=1)
alpha = 0.05
z_alpha = scipy.stats.norm.ppf(1-alpha/2)
print(xbar-z_alpha*np.sqrt(sd**2/n),xbar+z_alpha*np.sqrt(sd**2/n))
(표본비율을 이용한) 모비율(p)의 추정
점 추정
크기가 n개의 표본에서 어떤 사건이 일어날 횟수를 확률변수 X라고 할 때, 그 사건에 대한
표본비율 p^=nX 표본비율이 점 추정값이 됨 -> 모비율에 가까움
구간 추정
표본비율 p^=nX에서 확률변수 X는 확률이 p인 n번의 독립시행에서 그 사건이 일어난 횟수이므로 이항분포 B(n,p)를 따른다.
이항분포 B(n,p)를 따르는 확률변수 X의 평균과 분산은 E(x)=np,V(x)=np(1−p)
참고
https://www.youtube.com/watch?v=HUKqp0ifeSc
근사적으로 표준정규분포 N(0,1)을 따른다.
np^>5 , n(1−p^)>5 n이 충분히 클 때,
모비율 P의 100(1-α)% 신뢰구간(confidence interval)은
⇒p^−Zα/2np^(1−p^,p^+Zα/2np^(1−p^
통계적 가설 검정
표본평균의 값은 표본을 추출 할 때마다 다르다. -> 검정이 필요하다.
검정 단계
- H0:귀무가설, H1:대립가설 선정
- 유의수준 α 설정 (ex. α=0.05)
- 검정통계량
- 기각역 or 임계값 계산(구간값)
- 주어진 데이터로부터 유의성 판단
모평균의 검정
- 대립가설 H1
- 문제에서 검정하고자 하는 것이 무엇인지 파악
- 대립 가설 채택을 위한 통계적 증거 확보
- 증거가 없으면 귀무가설 H0 채택
H0 : μ=μ0
대립가설은 아래 유형 3가지 중 하나
H1 : μ>μ0
H1 : μ<μ0
H1 : μ=μ0
-
α는 주어지거나 임의로 설정
-
검정통계량
- 모평균 검정을 위한 검정통계량은 표본평균 X값을 이용
- n>30,Z=s/nX−μ ~ N(0,1)
n이 충분히 클 때, 표준정규분포를 따른다. (중심극한정리)
단, 모집단이 정규모집단이며, 모표준편차(σ)가 주어진 경우는
Z=σ/nX−μ ~ N(0,1)
- 기각역
- 대립가설에 따라 정해진다.
ex) H0:μ=10.5
유의수준 = α
기각역
H1 : μ>μ0⇒Z>zα
H1 : μ<μ0⇒Z<−zα
H1 : μ=μ0⇒∣Z∣>zα/2
만약 기각역 범위가 옳다면, 귀무가설을 기각할 수 있다.
→H1 대립가설이 옳다.
엔트로피(entropy)
사건 A에 대하여, 확률을 가지고 정보의 양을 판단 및 표현
i(A)=logb(P(A)1)=−logbP(A)
(b = 정보단위, b=2bit, b=e:nats, b=10:hartleys)
- 확률이 높은 사건 → 정보가 많지 않음 i(A)값이 낮다
- 확률이 낮은 사건 → 정보가 많음 i(A)값이 높다
- 따라서 log값을 취한다.
특성
- 사건 A,B의 대해, AB동시에 일어나는 자기정보 i(AB)에 대해서
i(AB)=logb(P(A)P(B)1)=logb(P(A)1)+logb(P(B)1)
=i(A)+i(B)
- P(H)=81,P(T)=87 일 때, i(H)=3비트,i(T)=0.193비트
엔트로피(entropy) : H(x)
자기정보 i(A)의 평균
사건 A에 대하여, H(x)=∑jP(Aj)i(Aj)=−∑jP(Aj)log2P(Aj)
특성
- 0≤H(X)≤log2k (k = 사건의 수)
엔트로피 활용
- 평균 비트 수(가각의 정보)를 표현
- 데이터 압축에 사용
교차 엔트로피 (cross entropy)
확률분포 P,Q가 있을 때, 사건들의 집합 S={Aj}에 대하여
- P(Aj) : 확률분포 P에서 사건 Aj가 발생할 확률
- Q(Aj) : 확률분포 Q에서 사건 Aj가 발생할 확률 (새로운 확률분포)
- i(Aj) : 확률분포 Q에서 사건 Aj의 자기정보
i(Aj)=−log2Q(Aj)(자기정보 Aj를 표현하는 비트 수 )
H(P,Q)
사건들의 집합(S)에서 확률분포 P에 대한 확률분포 Q의 교차 엔트로피
→ 확률분포 P에서 i(Aj)의 평균
→ H(P,Q)=∑jP(Aj)i(Aj)=−∑jP(Aj)log2Q(Aj)
=−∑x∈XP(x)log2Q(x)
H(P,Q)는 정확한 확률분포 P를 사용했을 떄의 비트 수 보다 크게 됨.
⇒P,Q값이 얼마나 비슷한지를 표현
분류문제에서의 손실함수
분류문제의 정답(P)과 측정값(Q)이 얼마나 다른가의 척도가 되어주는 손실함수
-
제곱합
∑(Pi−Qi)2
확률이 다를수록 큰값을 가진다.
but, 학습속도가 느리다.
-
교차 엔트로피 H(P,Q)
확률이 다를수록 큰값을 가진다.
학습속도가 빨라서 분류문제에서 주로 측정값과의 차이를 측정할 때 사용
H(P,Q)는 정답과 측정값의 차이가 클수록 값이 크다. 0에서 멀어진다.