확률 분포

Rapsby·2020년 12월 10일
0

인공지능 수학

목록 보기
12/19

확률변수(Random Variable)

랜덤한 실험 결과에 의존하는 실수
-이산확률변수(Discrete random variable)
셀 수 있는 경우
-연속확률변수(Continuous random variable)
셀 수 없는 경우

확률 분포(Probability Distribution)
확률변수가 가질 수 있는 값에 대해 확률을 대응시켜주는 관계
-표, 그래프, 함수

이산확률변수

이산확률변수의 확률분포
보통 함수로 주어짐
확률변수 XXxx라는 값을 가질 확률
P(X=x)=f(x)P(X=x) =f(x)

이산확률변수의 평균
기대값 E(X)=xxP(X=x)=xxf(x)E(X) = \sum_x xP(X=x) = \sum_xxf(x)

이산확률변수의 분산
σ2=1Ni=1N(xiμ)2\sigma^2 = {1 \over N} \sum\limits_{i=1}^{N}(x_i-\mu)^2
(Xμ)2(X-\mu)^2의 평균
Var(X)=σ2=E[(Xμ)2]=x(xμ)2P(X=x)=Var(X) = \sigma^2 = E[(X -\mu)^2] = \sum_x(x-\mu)^2P(X=x) = E(X2)E(X)2E(X^2) - {E(X)}^2

이산확률변수의 표준편차
분산의 양의 제곱근
SD(X)=σ2=σSD(X) = \sqrt{\sigma^2}=\sigma

결합확률 분포(Joint probability distribution)
두 개 이상의 확률 변수가 동시에 취하는 값들에 대해 확률을 대응시켜주는 관계
결합확률분포를 통해 각 확률변수의 확률분포를 도출할 수 있음

공분산(Covariance)
확률변수 XXYY의 공분산
(XμX)(YμY)(X-\mu_X)(Y-\mu_Y)의 평균
Cov(X,Y)=E[(XμX)(YμY)]Cov(X,Y) = E[(X-\mu_X)(Y-\mu_Y)]
=E(XY)μXμY=E[XY]E[X]E[Y]= E(XY) - \mu_X\mu_Y =E[XY] - E[X]E[Y]
공분산이 0에 가까울수록 확률변수는 관계가 적다.

상관계수(Correlation coefficient)
공분산은 각 확률 변수의 절대적인 크기에 영향을 받음
-단위에 의한 영향을 없앨 필요
ρ=Corr(X,Y)=Cov(X,Y)σXσY\rho = Corr(X,Y) = \cfrac{Cov(X,Y)}{\sigma_X\sigma_Y}

이항분포
이항 확률 변수 XX의 확률분포
f(x)=P[X=x]=(nx)px(1p)nxf(x) = P[X = x] = \begin{pmatrix} n \\ x \end{pmatrix}p^x(1-p)^{n-x}

어떤 랜덤박스의 뽑기 성공확률이 0.2이다.
3개를 뽑았을 때, 적어도 하나 이상의 성공이 발생할 확률은?
P[X1]=1P[X=0]=1(30)(0.2)0(10.2)30=10.512=0.488P[X \geq 1] = 1 - P[X = 0] = 1 - \begin{pmatrix} 3 \\ 0 \end{pmatrix}(0.2)^0(1-0.2)^{3-0} = 1 - 0.512 = 0.488

from scipy import stats
1 - stats.binom.cdf(0, n=3, p=0.2)
  • 평균
    E(X)=npE(X) = np
  • 분산
    Var(X)=np(1p)Var(X) = np(1-p)
  • 표준편차
    SD(X)=np(1p)SD(X) = \sqrt{np(1-p)}
stats.binom.stats(n=3, p=0.2) #(E(X) = 0.6, Var(X) = 0.46

정규분포
연속확률 변수의 확률분포
확률밀도함수(Probability Density Function)
f(x)f(x)
P[aXb]=abf(x)dxP[a \leq X \leq b] = \int_a^bf(x)dx

정규분포의 확률밀도함수
f(x)=12πσe12(xμσ)2f(x)={1 \over \sqrt{2 \pi}\sigma}e^{-{1 \over 2}({{x- \mu} \over \sigma})^2}
XX~N(μ,σ2)N(\mu,\sigma^2)

표준정규확률변수
Z=XμσZ = \cfrac{X-\mu}{\sigma}
표준정규분포
ZZ~N(0,1)N(0,1)

XX~N(4,32)N(4,3^2)
P[X4]=?P[X \leq 4] =?
=P[Xμσ4μσ]=P[Z443]=P[Z0]=0.5=P\begin{bmatrix}\cfrac{X-\mu}{\sigma} \leq \cfrac{4-\mu}{\sigma}\end{bmatrix} = P\begin{bmatrix}Z \leq \cfrac{4-4}{3}\end{bmatrix} = P\begin{bmatrix}Z \leq 0 \end{bmatrix} = 0.5

stats.norm.cdf(4, loc=4, scale=3)

포아송 분포(Poisson Distribution)
일정한 시간단위 또는 공간단위에서 발생하는 이벤트 수의 확률분포
확률분포함수(확률질량함수)
P[X=x]=f(x)=λxeλx!,x=0,1,2,P[X = x] = f(x) = \lambda^x\frac{e^{-\lambda}}{x!},x = 0, 1, 2, \dots
평균 : λ\lambda
분산 : λ\lambda

어느 웹사이트에 시간당 접속자 수는 평균이 3(λ=3)3(\lambda=3)인 포아송 분포를 따른다고 하자.
앞으로 1시간 동안 접속자 수가 2명 이하일 확률은?
P[X2]=P[X=0]+P[X=1]+P[X=2]P[X \leq 2] = P[X = 0] + P[X = 1] + P[X = 2]
=30e30!+31e31!+32e32!= 3^0\cfrac{e^{-3}}{0!}+3^1\cfrac{e^{-3}}{1!}+3^2\cfrac{e^{-3}}{2!}
=0.04998+0.14936+0.22404=0.42319=0.04998 + 0.14936 + 0.22404 = 0.42319

stats.poisson.cdf(2, mu=3)

지수분포(Exponential Distribution)
포아송 분포에 의해 어떤 사건이 발생할 때, 어느 한 시점으로부터 이 사건이 발생할 때까지 걸리는 시간에 대한 확률 분포
확률밀도함수
f(t)=λeλtf(t) = \lambda e^{-\lambda t}
λ\lambda : 포아송분포의 평균
평균 E(T)=1λE(T) = {1 \over \lambda}
분산 Var(T)=1λ2Var(T) = {1 \over \lambda^2}

어느 웹사이트에 시간당 접속자 수는 lambda=3lambda = 3인 포아송 분포를 따른다고 하자.
지금부터 시작하여 첫 번째 접속자가 30분 이내에 올 확률은?
P[T0.5]=?P[T \leq 0.5] = ?
P[T0.5]=00.5λeλtdt=00.53e3tdt=[e3t]00.5P[T \leq 0.5] = \int_{0}^{0.5}\lambda e^{-\lambda t}dt = \int_{0}^{0.5}3 e^{-3 t}dt = [-e^{-3t}]_0^{0.5}
=1e1.5=10.2231=0.7769= 1 - e^{-1.5} = 1 - 0.2231 = 0.7769

lambda = 3
stats.expon.cdf(0.5, scale=1/lambda)
profile
Good Morning

0개의 댓글