📖 학습주제
머신러닝, Scikit-learn, 실전 머신러닝 문제 실습 (3)
확률기초
확률과 확률변수 (Random Variable)
- 표본집합 S : 실험의 결과로 발생하는 모든 사건의 집합
- 확률 P : 집합 S의 부분집합(사건)을 실수값에 대응시키는 함수
- 확률변수 X : 표본집합 S의 원소 e를 실수값 X(e)=x에 대응시키는 함수
- 확률변수가 가질 수 있는 어떤 실수값의 집합 A에 대해,
B={e∣e∈SandX(e)∈A}로 주어졌을 때, A와 B는 동일한 사건이라 하고 P[X∈A]=P(B)라고 표기한다.
연속확률변수 (Continuous Random Variable)
- 누적분포함수(cumulative distribution function, CDF) : F(x)=P[X∈(−∞,x)]
- 누적분포함수 F(x)를 가진 확률변수 X에 대해, 다음을 만속하는 함수 f(x)가 존재한다면 를 연속확률변수라고 부르고 f(x)를 X의 확률밀도함수(probability distribution function, pdf)라고 한다.
F(x)=∫−∞xf(t) dt
- 혼란이 없다면 f(x) 대신 p(x)를 확률변수로 쓰기도 한다.
- p(x)≥0,∫−∞∞p(x) dx=1
- f(x)=dxdF(x)=F′(x)
확률변수의 성질
- 덧셈법칙(sum rule) : p(X)=Y∑p(X,Y)
- 곱셈법칙(product rule) : p(X,Y)=p(X∣Y)p(Y)=p(Y∣X)p(X)
- 베이즈 정리(Bayes Theorem)
p(Y∣X)=Y∑p(X∣Y)p(Y)p(X∣Y)p(Y)
사후확률(posterior)=정규화상수(normalization):X의경계확률(marginal)우도(likelihood)×사전확률(prior)
확률변수의 함수 (Functions of Random Variables)
확률변수 X의 함수 Y=f(X)도 확률변수가 된다.
확률변수 X의 함수 Y=g(X)와 역함수 X=w(Y)에 대해, 다음이 성립한다.
py(y)=px(x)∣∣∣∣∣dydx∣∣∣∣∣
k차원의 확률벡터 x=(x1,x2,⋯,xk)에 대해, k개의 x에 관한 함수 yi=gi(x)는 새로운 확률 변수 y=(y1,y2,⋯,yk)를 정의한다. (i=1,2,⋯,k)
y=g(x)가 일대일 대응(one−to−one)인 경우, y의 결합확률밀도함수는
py(y1,y2,⋯,yk)=px(x1,x2,⋯,xk)∣J∣, whereJ=∣∣∣∣∣∣∣∣∣∣∣∂y1∂x1∂y1∂x2⋮∂y1∂xk∂y2∂x1∂y2∂x2⋮∂y2∂xk⋯⋯⋱⋯∂y1∂xk∂yk∂x2⋮∂yk∂xk∣∣∣∣∣∣∣∣∣∣∣
Inverse CDF Technique
확률변수 X가 확률분포함수 FX(x)를 가진다고 하자.
연속확률분포함수 U∼UNIF(0,1)로 정의되는 다음과 같은 확률변수 Y를 가정하자.
Y=FX−1(U)
두 확률변수 X,Y는 동일한 분포를 따르게 된다.
기댓값 (Expectations)
확률분포p(x) 하에서 함수 f(x)의 평균을 기댓값이라고 하고 E로 표기한다.
- 이산확률분포에서의 기댓값 : E[f]=x∑p(x)f(x)
- 연속확률분포에서의 기댓값 : E[f]=∫p(x)f(x) dx
- 확률분포로부터 N개의 샘플을 추출해 기댓값을 근사해 구할 수 있다.
E[f]≈N1i=1∑Nf(xi)
- 다변량함수의 기댓값
Ex[f(x,y)]=x∑f(x,y)p(x)
Ex,y[f(x,y)]=y∑x∑f(x,y)p(x,y)
- 조건부 기댓값
Ex[f(x∣y)]=x∑f(x)p(x∣y)
분산 (Variance), 공분산 (Covariance)
f(x)의 값들이 기댓값으로부터 흩어져있는 정도를 분산이라고 하고 Var로 표기한다. (공분산 : Cov)
- Var[x]=E[(x−E[x])2]=E[x2]−E[x]2
- Cov[x,y]=Ex,y[{x−E[x]}{y−E[y]}]=Ex,y[xy]−E[x]E[y]
- 공분산은 두 확률변수의 선형관계를 나타낸다.
- 양수이면 양의 선형관계
- 음수이면 음의 선형관계
확률을 해석하는 두가지 관점
- 빈도주의(Frequentist) : 반복가능한 사건의 빈도수에 기반
- 베이지안(Bayesian) : 불확실성을 정량적으로 표현
베이지안의 장점
사전확률을 모델에 포함시킬 수 있음
정규분포 (Gaussian Distribution)
- 단일변수 x를 위한 가우시안 분포
N(x∣μ,σ2)=(2πσ2)1/21exp{−2σ21(x−μ)2} 확률분포이므로 이는 곧∫−∞∞N(x∣μ,σ2)dx=1
proof)
I=∫−∞∞exp(−2σ21x2)dxI2=∫−∞∞∫−∞∞exp(−2σ21(x2+y2))dxdy=∫02π∫0∞exp(−2σ21r2)rdrdθ=∫02π{−σ2exp(−2σ21)r2∣0∞}dθ=∫02π−σ2dθ=2πσ2I=2πσ21=II=∫−∞∞(2πσ2)1/21exp(−2σ21x2)
- E[x]=μ
- Var[x]=σ2
- 최대우도해 (Maximum Likelihood Solution)
X=(x1,x2.⋯,xN)T가 독립적으로 같은 가우시안 분포로부터 추출된 N개의 샘플이라고 할 때,μML=N1i=1∑Nxi σML2=N1i=1∑N(xi−μML)2
확률분포
이항변수 (Binary Variables)
x∈{0,1}
- E[x]=μ
- Var[x]=μ(1−μ)
- 최대우도추정치 (Maximum Likelihood Estimate)
μML=Nm(m:observationsof1) N이 작은 경우 MLE는 과적합된 결과를 낳을 수 있음
이항분포 (Binary Distribution)
D={x1,x2,⋯,xN}일 때, 이항변수 x가 m번 관측될 확률
Bin(m∣N,p)=(Nm)pm(1−p)n−m
- E[x]=np
- Var[x]=np(1−p)
N=1일 때 : 베르누이 분포
베타분포 (Beta Distribution)
Beta(μ∣α,β)=Γ(α)+Γ(β)Γ(α+β)μα−1(1−μ)β−1
이 때,
Γ(z)=∫0∞tz−1e−tdt
(Γ(n)=(n−1)! 이 성립한다.)
다항변수 (Multinomial Variables)
K개의 상태를 가질 수 있는 확률변수를 하나의 원소만 1이고 나머지는 0인 K차원의 벡터 x로 나타낼 수 있다. p(xk=1∣μ)=μk라고 하면, 베르누이 분포를 다음과 같이 일반화 할 수 있다.
p(x∣μ)=k=1∏Kμkxk,(k∑μk=1)
다항분포 (Multinomial Distribution)
- 디리클레 분포(Dirichlet distribution) : 다항분포에 대한 켤레사전분포
Dir(μ∣α)=Γ(α1)Γ(α2)...Γ(αK)Γ(α0)k=1∏Kμkαk−1
- μ의 사후확률
p(μ∣D,α)=Dir(μ∣α+m)=Γ(α1+m1)Γ(α2+m2)...Γ(αK+mK)Γ(α0+N)k=1∏Kμkαk+mk−1m=(m1,m2,⋯,mK)T
가우시안 분포 (Gaussian Distribution)
- 단일변수 x
N(x∣μ,σ2)=(2πσ2)1/21exp{−2σ21(x−μ)2}
- D차원 벡터 x
N(x∣μ,Σ)=(2π)D/21∣Σ∣1/21exp{−21(x−μ)TΣ−1(x−μ)}
μ : D차원 벡터의 평균 벡터
Σ : D×D 크기를 가지는 공분산 행렬