먼저 베르누이 시행(Bernoulli trial)에 대해 알 필요가 있다. 각 시행의 결과가 성공, 실패 두 가기만 존재하는 시행을 말하는데 이때, 성공이 1, 실패가 0의 값을 가지는 확률 변수 X의 분포를 베르누이 분포(Bernoulli distribution)이라고 한다.
X={1,성공0,실패
X~ Bernoulli(p)라고 표현함
함수식은 다음과 같다. fx(x)=px(1−p)1−x,(x=0,1)
기댓값 E(x)=p
분산 var(x)=p(1−p)
✔ 이항분포(Binomial distribution)
연속적인 베르누이 시행을 거쳐 나타나는 확률 분포
서로 독립인 베르누이 시행을 n번 반복해서 실행 했을 때, 성공한 횟수 X의 확률 분포
분산 var(X)=E(X2)−(E[X])2=n(n−1)p2+np−(np)2=np(1−p)=npq
✔ 포아송 분포(Poission distribution)
어느 희귀한 사건이 어떤 일정한 시간대에 특정한 사건이 발생할 확률 분포 (ex. 야구장에서 파울볼을 잡을 횟수, 버스 정류장에서 특정 버스가 5분 이내에 도착한 횟수)
조건
① 어떤 단위구간(ex.1일,30분) 동안 이를 더 짧은 작은 단위의 구간으로 나눌 수 있고, 이런 더 짧은 단위 구간 중에 어떤 사건이 발생할 확률은 전체 척도 중에서 항상 일정하다.
② 두 개 이상의 사건이 동시에 발생할 확률은 0에 가까움
③ 어떤 단위구간의 사건 발생은 다른 단위구간의 발생으로부터 독립적임
④ 특정 구간에서의 사건 발생 확률은 그 구간의 크기에 비례함
⑤ 포아송 분포 확률 변수의 기댓값과 분산은 모두 λ임
fx(x)=P(X=x)=x!e−λλx,(x=0,1,2,...)
X ~ poisson(λ)
이항분포의 포아송 근사
확률 변수 X가 이항분포(X~B(n,p))를 따른다고 하자. 이때, n이 충분이 크고, p이 아주 작을 때, X의 분포는 평균이 λ=np인 포아송 분포로 근사시킬 수 있다. 보통 n이 클 때, np<5를 만족하게 p가 작으면 근사 정도가 좋다고 한다. X~poisson(λ=np)
✔ 기하 분포(geometric distribution)
어떤 실험에서 처음 성공이 발생하기까지 시도한 횟수 X의 분포.
이때 각 시도는 베르누이 시행을 따른다.
fx(x)=P(X=x)=(1−p)x−1p,(x=1,2,...)
X ~ Geometric(p)
기댓값, E(X)=p1
분산, var(X)=p21−p
✔ 음이항 분포(negative binomial distribution)
어떤 실험에서 성공확률이 p일 때, r번의 실패가 나올 때까지 발생한 성공 횟수 X의 확률 분포
fx(x)=P(X=x)=(xx+r−1)px(1−p)r,(x=1,2,...)
X ~ NB(r,p)
기댓값 E(X)=rp1−p
분산 var(X)=rp21−p
.
.
📝 (2) 연속형 확률 분포
연속형 확률 분포를 몇 가지 살펴보기 전에 확률밀도함수와 누적분포함수에 대해 알아야할 필요가 있다.
확률 밀도 함수(probability density function)
연속형 확률 변수 X에 대해서 함수 f(x)가 아래의 조건을 만족하면 확률밀도함수라고 한다.
조건
① 모든 X에 대해서 f(X)≥0
② P(x∈(−∞,∞))=∫−∞∞f(X)dx=1
③ P(a≤X≤b)=∫abf(x)dx
확률 밀도 함수의 성질
① P(X=a)=P(a≤X≤a)=∫aaf(x)dx=0
② P(a≤X≤b)=P(a≤X<b)=P(a<X≤b)=P(a<X<b)
확률밀도함수의 평균과 분산 E(X)=∫−∞∞xf(X)dx var(X)=E(X−μ)2=∫−∞∞(X−μ)2f(X)dx
누적분포함수(cumulative density function)
확률밀도함수를 적분한다.
F(x)=P[X≤x]=∫−∞xf(x)dx
dxdF(x)=f(x)
누적부포함수의 성질
① 0≤F(x)≤1
② 만약 b≥a,F(b)≥F(a)
③ F(b)−F(a)=P[a≤X≤b]
.
✔ 균일분포(uniform distributuion)
확률 변수 X가 a와 b사이에서 아래와 같은 확률 밀도 함수(pdf)를 가짐
f(x)={b−a1,(a≤x≤b)0,oterwise
F(x)=⎩⎪⎨⎪⎧0,(x≤a)b−a1,(a≤x≤b)1,(x≥b)
균일분포의 평균, 분산 E[X]=2b+a var(X)=12(b−a)2
✔ 정규분포(normal distribution)
가우스 분포라고도 하며, 확률 밀도 함수는 확률 변수 X가 평균이 μ이고, 분산이 σ2인 정규분포를 따를 때 아래와 같다.
f(x)=2πσ1e−2σ21(x−μ)2,(−∞<x<∞,−∞<μ<∞,σ2>0)
X ~ N(μ,σ2)
평균과 분산 E(X)=∫xf(x)dx=∫x2πσ1e−2σ21(x−μ)2dx=μ var(X)=σ2
정규분포 모양 비교
(출처 - 위키백과)
표준 정규 분포(standard normal distribution)
확률 변수 X가 N(μ,σ2) 정규 분포를 따르고, 확률 변수 z=σx−μ라고 할 때 확률변수 z ~ N(0,1)를 따른다. f(x)=2πσ1e−2σ21(x−μ)2 이므로 μ=0,σ2=1을 대입한다. φ(Z)=2π1e−21z2 φ(Z)=P[Z≤z]
정규분포의 성질
①X ~ N(μ,σ2)일 때, 임의의 상수 a,b에 대하여 aX+b ~ N(aμ+b,a2σ2) X ~ N(μ1,σ12), Y ~ N(μ2,σ22)이고, X와 Y가 독립일 때 aX+bY ~ N(aμ1+bμ2,a2σ12+b2σ22)
이항분포의 정규 근사 X ~ B(n,p)일 때, 확률 변수 X는 n이 충분히 크면 근사적으로 정규분포 X ~ N(np,np(1−p))를 따른다.
✔ 지수분포(exponential distribution)
단위 시간당 발생할 확률 λ인 어떤 사건의 횟수가 포아송 분포를 따른다면, 어떤 사건이 처음 발생할 때까지 걸린 시간 확률 변수 X는 지수 분포이다. (ex. 첫 번째 버스가 도착할 때까지의 대기 시간 분포)