확률 분포

Rapsby·2020년 12월 10일

인공지능 수학

목록 보기

12/19

확률변수(Random Variable)

랜덤한 실험 결과에 의존하는 실수
-이산확률변수(Discrete random variable)
셀 수 있는 경우
-연속확률변수(Continuous random variable)
셀 수 없는 경우

확률 분포(Probability Distribution)
확률변수가 가질 수 있는 값에 대해 확률을 대응시켜주는 관계
-표, 그래프, 함수

이산확률변수

이산확률변수의 확률분포
보통 함수로 주어짐
확률변수 $X$ 가 $x$ 라는 값을 가질 확률
$P(X=x) =f(x)$

이산확률변수의 평균
기대값 $E(X) = \sum_x xP(X=x) = \sum_xxf(x)$

이산확률변수의 분산
$\sigma^2 = {1 \over N} \sum\limits_{i=1}^{N}(x_i-\mu)^2$
$(X-\mu)^2$ 의 평균
$Var(X) = \sigma^2 = E[(X -\mu)^2] = \sum_x(x-\mu)^2P(X=x) =$ $E(X^2) - {E(X)}^2$

이산확률변수의 표준편차
분산의 양의 제곱근
$SD(X) = \sqrt{\sigma^2}=\sigma$

결합확률 분포(Joint probability distribution)
두 개 이상의 확률 변수가 동시에 취하는 값들에 대해 확률을 대응시켜주는 관계
결합확률분포를 통해 각 확률변수의 확률분포를 도출할 수 있음

공분산(Covariance)
확률변수 $X$ 와 $Y$ 의 공분산
$(X-\mu_X)(Y-\mu_Y)$ 의 평균
$Cov(X,Y) = E[(X-\mu_X)(Y-\mu_Y)]$
$= E(XY) - \mu_X\mu_Y =E[XY] - E[X]E[Y]$
공분산이 0에 가까울수록 확률변수는 관계가 적다.

상관계수(Correlation coefficient)
공분산은 각 확률 변수의 절대적인 크기에 영향을 받음
-단위에 의한 영향을 없앨 필요
$\rho = Corr(X,Y) = \cfrac{Cov(X,Y)}{\sigma_X\sigma_Y}$

이항분포
이항 확률 변수 $X$ 의 확률분포
$f(x) = P[X = x] = \begin{pmatrix} n \\ x \end{pmatrix}p^x(1-p)^{n-x}$

어떤 랜덤박스의 뽑기 성공확률이 0.2이다.
3개를 뽑았을 때, 적어도 하나 이상의 성공이 발생할 확률은?
$P[X \geq 1] = 1 - P[X = 0] = 1 - \begin{pmatrix} 3 \\ 0 \end{pmatrix}(0.2)^0(1-0.2)^{3-0} = 1 - 0.512 = 0.488$
from scipy import stats
1 - stats.binom.cdf(0, n=3, p=0.2)
평균
$E(X) = np$

분산
$Var(X) = np(1-p)$

표준편차
$SD(X) = \sqrt{np(1-p)}$
stats.binom.stats(n=3, p=0.2) #(E(X) = 0.6, Var(X) = 0.46

정규분포
연속확률 변수의 확률분포
확률밀도함수(Probability Density Function)
$f(x)$
$P[a \leq X \leq b] = \int_a^bf(x)dx$

정규분포의 확률밀도함수
$f(x)={1 \over \sqrt{2 \pi}\sigma}e^{-{1 \over 2}({{x- \mu} \over \sigma})^2}$
$X$ ~ $N(\mu,\sigma^2)$

표준정규확률변수
$Z = \cfrac{X-\mu}{\sigma}$
표준정규분포
$Z$ ~ $N(0,1)$

$X$ ~ $N(4,3^2)$
$P[X \leq 4] =?$
$=P\begin{bmatrix}\cfrac{X-\mu}{\sigma} \leq \cfrac{4-\mu}{\sigma}\end{bmatrix} = P\begin{bmatrix}Z \leq \cfrac{4-4}{3}\end{bmatrix} = P\begin{bmatrix}Z \leq 0 \end{bmatrix} = 0.5$
stats.norm.cdf(4, loc=4, scale=3)

포아송 분포(Poisson Distribution)
일정한 시간단위 또는 공간단위에서 발생하는 이벤트 수의 확률분포
확률분포함수(확률질량함수)
$P[X = x] = f(x) = \lambda^x\frac{e^{-\lambda}}{x!},x = 0, 1, 2, \dots$
평균 : $\lambda$
분산 : $\lambda$

어느 웹사이트에 시간당 접속자 수는 평균이 $3(\lambda=3)$ 인 포아송 분포를 따른다고 하자.
앞으로 1시간 동안 접속자 수가 2명 이하일 확률은?
$P[X \leq 2] = P[X = 0] + P[X = 1] + P[X = 2]$
$= 3^0\cfrac{e^{-3}}{0!}+3^1\cfrac{e^{-3}}{1!}+3^2\cfrac{e^{-3}}{2!}$
$=0.04998 + 0.14936 + 0.22404 = 0.42319$
stats.poisson.cdf(2, mu=3)

지수분포(Exponential Distribution)
포아송 분포에 의해 어떤 사건이 발생할 때, 어느 한 시점으로부터 이 사건이 발생할 때까지 걸리는 시간에 대한 확률 분포
확률밀도함수
$f(t) = \lambda e^{-\lambda t}$
$\lambda$ : 포아송분포의 평균
평균 $E(T) = {1 \over \lambda}$
분산 $Var(T) = {1 \over \lambda^2}$

어느 웹사이트에 시간당 접속자 수는 $lambda = 3$ 인 포아송 분포를 따른다고 하자.
지금부터 시작하여 첫 번째 접속자가 30분 이내에 올 확률은?
$P[T \leq 0.5] = ?$
$P[T \leq 0.5] = \int_{0}^{0.5}\lambda e^{-\lambda t}dt = \int_{0}^{0.5}3 e^{-3 t}dt = [-e^{-3t}]_0^{0.5}$
$= 1 - e^{-1.5} = 1 - 0.2231 = 0.7769$
lambda = 3
stats.expon.cdf(0.5, scale=1/lambda)

Rapsby

Good Morning

이전 포스트

확률

다음 포스트

확률 분포

인공지능 수학

확률변수(Random Variable)

이산확률변수

확률

표본분포

0개의 댓글