Joint Probability Distribution
Joint Probability Distribution
결합분포(Joint Probability Distribution)는 두 개의 확률변수가 취할 수 있는 값들의 모든 쌍의 확률을 나타낸 것이다.
-
이산형 결합확률질량함수
p(x,y)=P(X=x,Y=y)
- 0≤p(x,y)≤1
- ∑x∑yp(x,y)=1
- P(a<X≤b,c<Y≤d)=∑a<x≤b∑c<y≤dp(x,y)
-
연속형 결합확률밀도함수
P(a<X≤b,c<Y≤d)=∫ab∫cdf(x,y)dydx
- f(x,y)≥0
- ∫∫f(x,y)dxdy=1
- P(a<X≤b,c<Y≤d)=∫cd∫abf(x,y)dxdy
-
E[g(X,Y)]=∫−∞∞∫−∞∞g(x,y)f(x,y)dxdy
-
E[ag(X,Y)+bh(X,Y)]=aE[g(X,Y)]+bE[h(X,Y)]
Marginal PDF
주변확률밀도함수(Marginal PDF)는 다음과 같다.
- pX(x)=∑yp(x,y)
- fX(x)=∫f(x,y)dy
두 확률변수 X, Y 가 다음을 만족할때 두 확률변수는 서로 독립이다.
- 이산형: pX,Y(x,y)=pX(x)pY(y)
- 연속형: fX,Y(x,y)=fX(x)fY(y)
- X와 Y가 서로 독립이면, E(XY)=E(X)E(Y)
Covariance and Correlation Coefficient
확률변수 X, Y에 대해 다음과 같은 성질들이 있다.
-
Cov(aX+b,cY+d)=acCov(X,Y)
-
Corr(aX+b,cY+d)=sign(ac)Corr(X,Y)
-
Var(X±Y)=Var(X)+Var(Y)±2Cov(X,Y)
-
Var(aX+bY)=a2Var(X)+b2Var(Y)+2abCov(X,Y)
-
−1≤ρ≤1
-
Y=a+bX이면 ρ=±1
확률변수 X, Y가 독립일 경우,
-
E(XY)=E(X)E(Y)
-
E[g(X)h(Y)]=E[g(X)]E[h(Y)]
-
Cov(X,Y)=0,Corr(X,Y)=0
- 주의: Cov(X,Y)=0인 것이 X,Y의 독립을 의미하지 않음
-
Var(X±Y)=Var(X)+Var(Y)
Conditional Probability Distribution
조건부 확률분포(Conditional Probability Distribution)는 두개의 확률변수가 있을 때, 하나의 확률변수의 값이 주어졌을때, 나머지 하나의 확률변수의 확률분포를 말한다.
-
이산 확률변수
두개의 이산 확률변수 X, Y에 대하여 X = x가 주어졌을때의 Y의 확률질량함수:
p(y∣x)=P(Y=y∣X=x)=P(X=x)P(X=x,Y=y)
p(y∣x)는 X=x로 고정 되어있을 때의 Y의 확률질량함수이다.
-
연속 확률변수
두개의 연속 확률변수 X, Y에 대하여 X=x가 주어졌을 때의 Y의 확률밀도함수:
f(y∣x)=f(x)f(x,y)
f(y∣x)는 X=x가 고정되어 있을 때의 Y의 확률밀도함수이다.
- 하나가 이산 확률변수이고, 다른 하나가 연속 확률변수여도 잘 정의 될 수 있다.
Conditional Independence
두 확률변수 X, Y가 또 다른 확률변수 Z가 주어졌을때 서로 독립인 경우 X, Y는 조건부 독립(Conditional Independence)이라고 부른다.
즉, 모든 x,y,z에 대하여, p(x,y∣z)=p(x∣z)p(y∣z) 또는 f(x,y∣z)=f(x∣z)f(y∣z) 이다.
- X⊥Y∣Z 로 표시한다.
Random Vectors
각 원소 Xi가 확률변수인 크기가 p×1인 (열)벡터 X=(X1,⋯,Xp)T를 확률벡터(random vector)라고 부른다.
-
확률벡터의 확률분포 - 결합확률분포(joint probability distribution)
-
결합확률질량함수(joint probability mass function): pX1,⋯,Xp(x1,⋯,xp)
-
결합확률밀도함수(joint probability density function): fX1,⋯,Xp(x1,⋯,xp)
-
결합누적확률분포(joint cumulative distribution function): FX1,⋯,Xp(x1,⋯,xp)=P(X1≤x1,⋯,Xp≤xp)
Mean of Random Vectors
E(X)=E⎝⎜⎜⎛X1⋮Xp⎠⎟⎟⎞=⎝⎜⎜⎛E(X1)⋮E(Xp)⎠⎟⎟⎞=⎝⎜⎜⎛μ1⋮μp⎠⎟⎟⎞=μ,
- μi=E(Xi)
Covariance Matrix
확률벡터 X의 공분산 행렬 (covariance matrix) Σ는 다음과 같이 정의한다.
cov(X)=E((X−μ)(X−μ)T)
var(Xi)=σi2,cov(Xi,Xj)=σij 라고 하고, σii=σi2 라고 하자. 그러면, 공분산 행렬은 다음과 같이 표현된다.
Σ=cov(X)=⎝⎜⎜⎜⎜⎛σ11σ21⋮σp1σ12σ22⋮σp2⋯⋯⋱⋯σ1pσ2p⋮σpp⎠⎟⎟⎟⎟⎞
- Σ−1: Precision matrix
Marginal Probability Distribution
-
PMF: pXi(xi)=∑xj,j=ip(x1,⋯,xp)
-
PDF: fXi(xi)=∫f(x1,⋯,xp)dx1⋯dxi−1dxi+1⋯dxp
-
CDF: FXi(xi)=limxj→∞,j=iF(x1,⋯,xp)
Conditional PMF
이산인 확률변수 X1,⋯,Xp에 대하여 X1=x1,⋯,Xk=xk, (k<p)가 주어졌을때의 Xk+1,⋯,Xp의 확률질량함수:
p(xk+1,⋯,xp∣x1,⋯,xk)=P(Xk+1=xk+1,⋯,Xp=xp∣X1=x1,⋯,Xk=xk)=P(X1=x1,⋯,Xk=xk)P(X1=x1,⋯,Xp=xp)
- p(xk+1,⋯,xp∣x1,⋯,xk)는 확률질량함수이다.
Conditional PDF
연속인 확률변수 X1,⋯,Xp에 대하여 X1=x1,⋯,Xk=xk가 주어졌을때의 Xk+1,⋯,Xp의 확률밀도함수:
f(xk+1,⋯,xp∣x1,⋯,xk)=f(x1,⋯,xk)f(x1,⋯,xp)
- f(xk+1,⋯,xp∣x1,⋯,xk)는 확률밀도함수이다.
- 이산 확률변수와 연속 확률변수가 섞여있어도 조건부 확률분포를 얘기할 수 있다.
Independence
확률변수 X1,⋯,Xp가 다음을 만족할 때 서로 독립이다:
모든 x1,⋯,xp에 대해,
Discrete: p(x1,⋯,xp)=pX1(x1)⋯pXp(xp)
Continuous: f(x1,⋯,xp)=fX1(x1)⋯fXp(xp)
- X1,⋯,Xp가 서로 독립이면, E(X1⋯Xp)=E(X1)⋯E(Xp)
Examples of Multivariate Probability Distribution
Multinomial Distribution
다항 분포 (Multinomial Distribution)는 독립시행에서 나오는 결과 (outcome)가 두 가지 이상일 때를 모형화 한 것이다.
k의 서로 다른 결과가 나오는 독립시행을 n번 시도 하였을때 각각의 결과가 나오는 횟수를 Xj라고 하자. 즉, Xj 는 n번의 독립 시행에서 범주 j가 나온 횟수이다. 즉, X1+⋯+Xk=n이다.
한번의 시행에서 j번째 범주가 나올 확률을 pj라고 하자. 즉, p1+⋯+pk=1이다.
이 때, 각 범주별로 나오는 횟수 (X1,…,Xk) 는 다항분포 (multinomial distribution)을 따르고 다음과 같이 표시한다: X=(X1,⋯,Xk)∼Multi(n,(p1,⋯,pk))
-
다항분포의 확률질량함수는 다음과 같다.
p(n1,⋯,nk)=p(n1,⋯,nk∣p)=P(X1=n1,⋯,Xk=nk)=n1!⋯nk!n!p1n1⋯pknk
- p=(p1,⋯,pk)
-
이항분포의 확장으로 볼 수 있다. k=2이면 다항분포는 이항분포와 같다.
-
E(Xj)=npj,var(Xj)=npj(1−pj),cov(Xj,Xj′)=−npjpj′
Dirichlet Distribution
디리클레 분포(Dirichlet Distribution)는 연속 확률분포중의 하나로, 0≤Xj≤1이면서 ∑j=1kXj=1을 만족하는 확률변수들의 벡터 X=(X1,⋯,Xk) (k≥2)가 다음의 확률밀도함수를 가지는 경우이다.
f(x1,⋯,xk)=f(x1,⋯,xk∣α)=B(α)1j=1∏kxjαj−1,
xj∈[0,1],j∑xj=1,α=(α1,⋯,αk).
αj>0은 확률밀도함수를 정하는 모수(parameter)이고,
B(α)=Γ(∑jαj)∏j=1kΓ(αj)는 정규화 상수 (normalized constant)이다.
-
X∼Dir(α)로 나타낸다.
-
E(Xj)=αj/∑iαi
-
k=2이면 디리클레분포는 베타분포와 같다.
Multivariate Gaussian Distribution
각 원소가 가우시안 분포 (정규분포)를 따르는 확률벡터의 분포를 다변량 가우시안분포(Multivariate Gaussian Distribution)라고 한다.
-
가우시안 확률벡터 (크기 p)의 확률밀도함수는 다음과 같이 정의된다.
f(x1,⋯,xp)=f(x1,⋯,xp∣μ,Σ)=(2π)−2p∣Σ∣−21exp(−21(x−μ)TΣ−1(x−μ))
- ∣Σ∣는 Σ의 행렬식 (determinant)이다.
-
X∼Np(μ,Σ)로 나타낸다.
-
각 원소가 표준정규분포이고 서로 독립이면, Z∼Np(0,I)로 표현된다. I는 단위행렬 (identity matrix)이다.
-
Σ는 일반적으로 양의 정 부호 행렬 (positive definite matrix)이다.
-
양의 정부호 행렬은 Cholesky decomposition에 의해 Σ=AAT로 표현되고 표준정규분포 벡터 Z를 이용하면 AZ+μ∼N(μ,Σ)임을 알 수 있다.
-
σij=E((Xi−μi)(Xj−μj))=0 이면, 즉 Σ 의 (i,j) 원소가 0 이면, Xi,Xj 는 서로 독립이다.
- 따라서, 서로 독립인 가우시안 확률변수로 이루어진 다변량 가우시안 확률벡터의 공분산 행렬은 대각행렬이다. 즉, Σ=diag(d1,⋯,dp).
-
a1X1+⋯+apXp (적어도 하나의 ai가 0이 아닌 경우)는 가우시안분포(정규분포)를 따른다.
-
X1,⋯,Xp중에 k(k≤p)개의 원소를 뽑아 만든 벡터 Xs=(Xi1,⋯,Xik)도 가우시안분포를 따른다.
-
Xs∼Ns(μs,Σs),μs=(μi1,…,μik)T,Σs의 (l,m) 원소는 σil,im 이다.
-
p=2인 경우, 이변량 가우시안 (bivariate Gaussian) 분포이며, 확률밀도함수는 다음과 같이 상관계수를 포함한 5개의 모수로 표현 할 수도 있다. 이때, σ12=ρσ1σ2이다.
f(x1,x2)=2πσ1σ21−ρ21exp(−2(1−ρ2)1[σ12(x1−μ1)2+σ22(x2−μ2)2−2ρσ1σ2(x1−μ1)(x2−μ2)])
Partitioned Gaussian Distribution
가우시안 확률벡터의 일부로 만든 벡터의 분포를 분할 가우시안 분포 (Partitioned Gaussian Distribution)라고 하며, 평균벡터와 공분산 행렬은 원 확률벡터의 평균벡터와 공분산행렬을 분할하여 표현할 수 있다.
X=(X1,⋯,Xp)T∼Np(μ,Σ)일 때, X=(X1T,X2T)T로 나누어진다고 하자. 편의상 X1=(X1,⋯,Xm)T,X2=(Xm+1,⋯,Xp)T라고 하자. 실제로는 순서상관없이 두개의 그룹으로 묶어도 된다.
이때, X1∼Nm(μ1,Σ11),μ=(μ1T,μ2T)T,Σ=(Σ11Σ21Σ12Σ22)
Conditional Partitioned Gaussian Distribution
X2=a로 주어졌을때 X1의 조건부 확률분포는
X1∣X2=a∼Nm(μ1+Σ12Σ22−1(a−μ2),Σ11−Σ12Σ22−1Σ21)
X=(X1,X2)일때, 즉 이변량 가우시안 일때,
X1∣X2=a∼N(μ1+σ2σ1ρ(a−μ2),(1−ρ2)σ12)
Mixure Distribution
여러개의 분포의 선형결합으로 이루어진 분포를 혼합분포(Mixure Distribution)라고 한다.
이산확률분포에서는 k개의 이산확률분포의 선형결합으로 이루어진 다음과 같은 확률질량함수를 가진다.
p(x)=w1p1(x)+⋯+wkpk(x)=i=1∑kwipi(x)
이때 pk(x)는 확률질량함수이고, wi≥0,∑wi=1을 만족한다.
연속확률분포에서는 다음과 같은 확률밀도함수를 가진다.
f(x)=w1f1(x)+⋯+wkfk(x)=i=1∑kwifi(x).
Gaussian Mixure Distribution
fi들이 가우시안 확률밀도함수인 경우 가우시안 혼합분포(Gaussian Mixure Distribution)라고 한다.
ϕ(x)를 표준정규분포의 확률밀도함수라고 하자. 즉,
ϕ(x)=2π1e−21x2.
X∼N(μ,σ2)인 경우, X의 확률밀도함수는 σ1ϕ(σX−μ)로 표현할 수 있다.
이 경우 k개의 구성원을 가지는 가우시안 혼합 분포의 확률밀도함수는 다음과 같이 쓸 수 있다.
f(x)=i=1∑kwiσi1ϕ(σix−μi).
-
k=2인 경우 f(x)=w1σ11ϕ(σ1x−μ1)+(1−w1)σ21ϕ(σ2x−μ2)
-
X1,⋯,Xn∼i.i.d.f(x)=∑i=1kwiσi1ϕ(σix−μi), 즉, 가우시안 혼합 분포를 따르는 랜덤 추출된 데이터가 있다고 할때, 각 Xj는 wi의 확률로 N(μi,σi2)을 따른다고 해석할 수 있다.
-
군집분석의 모델로 사용할 수 있다.

- 왼쪽: 파란선 N(−1,12), 빨간선 N(2,22)
- 오른쪽: 파란점선 0.5×N(−1,12), 빨간점선 0.5×N(2,22) -> 까만선: 0.5×N(−1,12)+0.5×N(2,22)
Sample Distribution
Distribution of Sample Mean
표본평균 (sample mean), Xˉ은 표본의 중심경향성을 나타내는 통계량이다.
-
모집단의 평균 (모평균)을 μ라고 하면, 표본평균은 μ의 추정량 (estimator)이다.
-
표본 {X1,X2,⋯,Xn}가 모평균 μ, 모분산 σ2인 모집단에서 추출된 랜덤표본일때,
Xˉ=n1i=1∑nXi.
-
무한모집단에서 추출된 랜덤표본일 경우,
E(Xˉ)=μ,Var(Xˉ)=nσ2,sd(Xˉ)=nσ
-
크기가 N인 유한모집단에서 추출된 랜덤표본일 경우,
E(Xˉ)=μ,Var(Xˉ)=N−1N−n⋅nσ2.
Law of Large Numbers (LLN)
큰 수의 법칙(Law of Large Numbers, LLN)은 표본의 크기 n 이 커질수록 표본평균의 분산은 0에 가까워진다는 것을 말한다.
표본평균의 기대값은 모평균과 같고, 분산이 작아지므로, Xˉ는 모평균 μ의 근처에 밀집되어 분포함을 알 수 있다. 이러한 결과를 큰수의 법칙이라고 한다.

Central Limit Theorem (CLT)
중심극한정리(Central Limit Theorem, CLT)는 임의의 모집단에 대해 σ/nXˉ−μ의 분포는 표준정규분포 N(0,1)에 근사한다는 것을 말한다.
유한모집단의 경우, 모집단의 크기 N과 표본의 크기 n이 충분히 크면(단 N≫n) N−1N−n의 값이 1에 근사하므로, 위의 성질이 성립한다.
중심극한정리를 통해, 모집단의 분포가 어떤 형태이든지 표본의 크기가 크면 표본평균의 분포를 정규분포로 근사할 수 있다.
- 즉, Xˉ의 분포 ≈N(μ,nσ2).

Normal Approximation Using the Binomial Distribution
X1,X2,⋯,Xn이 성공률이 p인 베르누이분포를 따르는 무한모집단의 랜덤표본이라고 하자. 이 경우, S=∑i=1nXi은 이항분포 B(n,p)을 따른다.
중심극한정리를 적용하면, n이 충분히 클 때
np(1−p)S−np=p(1−p)/np^−p
의 분포는 표준정규분포 N(0,1)에 근사한다. (p^= 베르누이분포의 표본비율 nS.)
즉, n이 충분히 크고, np가 적당한 값이면, B(n,p)를 이용하는 확률계산을 N(np,np(1−p))를 이용하여 근사할 수 있다.