확률변수(Random Variable)
랜덤한 실험 결과에 의존하는 실수
-이산확률변수(Discrete random variable)
셀 수 있는 경우
-연속확률변수(Continuous random variable)
셀 수 없는 경우
확률 분포(Probability Distribution)
확률변수가 가질 수 있는 값에 대해 확률을 대응시켜주는 관계
-표, 그래프, 함수
이산확률변수
이산확률변수의 확률분포
보통 함수로 주어짐
확률변수 X X X 가 x x x 라는 값을 가질 확률
P ( X = x ) = f ( x ) P(X=x) =f(x) P ( X = x ) = f ( x )
이산확률변수의 평균
기대값 E ( X ) = ∑ x x P ( X = x ) = ∑ x x f ( x ) E(X) = \sum_x xP(X=x) = \sum_xxf(x) E ( X ) = ∑ x x P ( X = x ) = ∑ x x f ( x )
이산확률변수의 분산
σ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma^2 = {1 \over N} \sum\limits_{i=1}^{N}(x_i-\mu)^2 σ 2 = N 1 i = 1 ∑ N ( x i − μ ) 2
( X − μ ) 2 (X-\mu)^2 ( X − μ ) 2 의 평균
V a r ( X ) = σ 2 = E [ ( X − μ ) 2 ] = ∑ x ( x − μ ) 2 P ( X = x ) = Var(X) = \sigma^2 = E[(X -\mu)^2] = \sum_x(x-\mu)^2P(X=x) = V a r ( X ) = σ 2 = E [ ( X − μ ) 2 ] = ∑ x ( x − μ ) 2 P ( X = x ) = E ( X 2 ) − E ( X ) 2 E(X^2) - {E(X)}^2 E ( X 2 ) − E ( X ) 2
이산확률변수의 표준편차
분산의 양의 제곱근
S D ( X ) = σ 2 = σ SD(X) = \sqrt{\sigma^2}=\sigma S D ( X ) = σ 2 = σ
결합확률 분포(Joint probability distribution)
두 개 이상의 확률 변수가 동시에 취하는 값들에 대해 확률을 대응시켜주는 관계
결합확률분포를 통해 각 확률변수의 확률분포를 도출할 수 있음
공분산(Covariance)
확률변수 X X X 와 Y Y Y 의 공분산
( X − μ X ) ( Y − μ Y ) (X-\mu_X)(Y-\mu_Y) ( X − μ X ) ( Y − μ Y ) 의 평균
C o v ( X , Y ) = E [ ( X − μ X ) ( Y − μ Y ) ] Cov(X,Y) = E[(X-\mu_X)(Y-\mu_Y)] C o v ( X , Y ) = E [ ( X − μ X ) ( Y − μ Y ) ]
= E ( X Y ) − μ X μ Y = E [ X Y ] − E [ X ] E [ Y ] = E(XY) - \mu_X\mu_Y =E[XY] - E[X]E[Y] = E ( X Y ) − μ X μ Y = E [ X Y ] − E [ X ] E [ Y ]
공분산이 0에 가까울수록 확률변수는 관계가 적다.
상관계수(Correlation coefficient)
공분산은 각 확률 변수의 절대적인 크기에 영향을 받음
-단위에 의한 영향을 없앨 필요
ρ = C o r r ( X , Y ) = C o v ( X , Y ) σ X σ Y \rho = Corr(X,Y) = \cfrac{Cov(X,Y)}{\sigma_X\sigma_Y} ρ = C o r r ( X , Y ) = σ X σ Y C o v ( X , Y )
이항분포
이항 확률 변수 X X X 의 확률분포
f ( x ) = P [ X = x ] = ( n x ) p x ( 1 − p ) n − x f(x) = P[X = x] = \begin{pmatrix} n \\ x \end{pmatrix}p^x(1-p)^{n-x} f ( x ) = P [ X = x ] = ( n x ) p x ( 1 − p ) n − x
어떤 랜덤박스의 뽑기 성공확률이 0.2이다.
3개를 뽑았을 때, 적어도 하나 이상의 성공이 발생할 확률은?
P [ X ≥ 1 ] = 1 − P [ X = 0 ] = 1 − ( 3 0 ) ( 0.2 ) 0 ( 1 − 0.2 ) 3 − 0 = 1 − 0.512 = 0.488 P[X \geq 1] = 1 - P[X = 0] = 1 - \begin{pmatrix} 3 \\ 0 \end{pmatrix}(0.2)^0(1-0.2)^{3-0} = 1 - 0.512 = 0.488 P [ X ≥ 1 ] = 1 − P [ X = 0 ] = 1 − ( 3 0 ) ( 0 . 2 ) 0 ( 1 − 0 . 2 ) 3 − 0 = 1 − 0 . 5 1 2 = 0 . 4 8 8
from scipy import stats
1 - stats.binom.cdf(0, n=3, p=0.2)
평균
E ( X ) = n p E(X) = np E ( X ) = n p
분산
V a r ( X ) = n p ( 1 − p ) Var(X) = np(1-p) V a r ( X ) = n p ( 1 − p )
표준편차
S D ( X ) = n p ( 1 − p ) SD(X) = \sqrt{np(1-p)} S D ( X ) = n p ( 1 − p )
stats.binom.stats(n=3, p=0.2) #(E(X) = 0.6, Var(X) = 0.46
정규분포
연속확률 변수의 확률분포
확률밀도함수(Probability Density Function)
f ( x ) f(x) f ( x )
P [ a ≤ X ≤ b ] = ∫ a b f ( x ) d x P[a \leq X \leq b] = \int_a^bf(x)dx P [ a ≤ X ≤ b ] = ∫ a b f ( x ) d x
정규분포의 확률밀도함수
f ( x ) = 1 2 π σ e − 1 2 ( x − μ σ ) 2 f(x)={1 \over \sqrt{2 \pi}\sigma}e^{-{1 \over 2}({{x- \mu} \over \sigma})^2} f ( x ) = 2 π σ 1 e − 2 1 ( σ x − μ ) 2
X X X ~N ( μ , σ 2 ) N(\mu,\sigma^2) N ( μ , σ 2 )
표준정규확률변수
Z = X − μ σ Z = \cfrac{X-\mu}{\sigma} Z = σ X − μ
표준정규분포
Z Z Z ~N ( 0 , 1 ) N(0,1) N ( 0 , 1 )
X X X ~N ( 4 , 3 2 ) N(4,3^2) N ( 4 , 3 2 )
P [ X ≤ 4 ] = ? P[X \leq 4] =? P [ X ≤ 4 ] = ?
= P [ X − μ σ ≤ 4 − μ σ ] = P [ Z ≤ 4 − 4 3 ] = P [ Z ≤ 0 ] = 0.5 =P\begin{bmatrix}\cfrac{X-\mu}{\sigma} \leq \cfrac{4-\mu}{\sigma}\end{bmatrix} = P\begin{bmatrix}Z \leq \cfrac{4-4}{3}\end{bmatrix} = P\begin{bmatrix}Z \leq 0 \end{bmatrix} = 0.5 = P [ σ X − μ ≤ σ 4 − μ ] = P [ Z ≤ 3 4 − 4 ] = P [ Z ≤ 0 ] = 0 . 5
stats.norm.cdf(4, loc=4, scale=3)
포아송 분포(Poisson Distribution)
일정한 시간단위 또는 공간단위에서 발생하는 이벤트 수의 확률분포
확률분포함수(확률질량함수)
P [ X = x ] = f ( x ) = λ x e − λ x ! , x = 0 , 1 , 2 , … P[X = x] = f(x) = \lambda^x\frac{e^{-\lambda}}{x!},x = 0, 1, 2, \dots P [ X = x ] = f ( x ) = λ x x ! e − λ , x = 0 , 1 , 2 , …
평균 : λ \lambda λ
분산 : λ \lambda λ
어느 웹사이트에 시간당 접속자 수는 평균이 3 ( λ = 3 ) 3(\lambda=3) 3 ( λ = 3 ) 인 포아송 분포를 따른다고 하자.
앞으로 1시간 동안 접속자 수가 2명 이하일 확률은?
P [ X ≤ 2 ] = P [ X = 0 ] + P [ X = 1 ] + P [ X = 2 ] P[X \leq 2] = P[X = 0] + P[X = 1] + P[X = 2] P [ X ≤ 2 ] = P [ X = 0 ] + P [ X = 1 ] + P [ X = 2 ]
= 3 0 e − 3 0 ! + 3 1 e − 3 1 ! + 3 2 e − 3 2 ! = 3^0\cfrac{e^{-3}}{0!}+3^1\cfrac{e^{-3}}{1!}+3^2\cfrac{e^{-3}}{2!} = 3 0 0 ! e − 3 + 3 1 1 ! e − 3 + 3 2 2 ! e − 3
= 0.04998 + 0.14936 + 0.22404 = 0.42319 =0.04998 + 0.14936 + 0.22404 = 0.42319 = 0 . 0 4 9 9 8 + 0 . 1 4 9 3 6 + 0 . 2 2 4 0 4 = 0 . 4 2 3 1 9
stats.poisson.cdf(2, mu=3)
지수분포(Exponential Distribution)
포아송 분포에 의해 어떤 사건이 발생할 때, 어느 한 시점으로부터 이 사건이 발생할 때까지 걸리는 시간에 대한 확률 분포
확률밀도함수
f ( t ) = λ e − λ t f(t) = \lambda e^{-\lambda t} f ( t ) = λ e − λ t
λ \lambda λ : 포아송분포의 평균
평균 E ( T ) = 1 λ E(T) = {1 \over \lambda} E ( T ) = λ 1
분산 V a r ( T ) = 1 λ 2 Var(T) = {1 \over \lambda^2} V a r ( T ) = λ 2 1
어느 웹사이트에 시간당 접속자 수는 l a m b d a = 3 lambda = 3 l a m b d a = 3 인 포아송 분포를 따른다고 하자.
지금부터 시작하여 첫 번째 접속자가 30분 이내에 올 확률은?
P [ T ≤ 0.5 ] = ? P[T \leq 0.5] = ? P [ T ≤ 0 . 5 ] = ?
P [ T ≤ 0.5 ] = ∫ 0 0.5 λ e − λ t d t = ∫ 0 0.5 3 e − 3 t d t = [ − e − 3 t ] 0 0.5 P[T \leq 0.5] = \int_{0}^{0.5}\lambda e^{-\lambda t}dt = \int_{0}^{0.5}3 e^{-3 t}dt = [-e^{-3t}]_0^{0.5} P [ T ≤ 0 . 5 ] = ∫ 0 0 . 5 λ e − λ t d t = ∫ 0 0 . 5 3 e − 3 t d t = [ − e − 3 t ] 0 0 . 5
= 1 − e − 1.5 = 1 − 0.2231 = 0.7769 = 1 - e^{-1.5} = 1 - 0.2231 = 0.7769 = 1 − e − 1 . 5 = 1 − 0 . 2 2 3 1 = 0 . 7 7 6 9
lambda = 3
stats.expon.cdf(0.5, scale=1/lambda)