대표적인 확률분포 유형 - 이산확률분포

Fine Tech Blog·2022년 11월 1일
0
post-thumbnail

이번 장과 다음 장에서는 몇 가지 정형화된 확률분포를 공부한다.
확률분포는 크게 이산확률분포와 연속확률분포로 나뉜다.
이산확률분포로는 이산균등분포, 이항분포, 초기하분포, 포아송분포가 있으며,
연속확률분포로는 연속균등분포, 정규분포, 표준정규분포가 있다.
이번 장에서는 이산확률분포를 먼저 공부해보자.

# 이산균등분포

주사위를 던질 때 윗면에 표시된 점의 개수를 XX라 하면, XX가 취할 수 있는 수치는 1, 2, ... , 6 중 하나이며 각각의 수치가 나올 확률은 모두 동일하게 1/6 이다. 즉, P(X=i)=1/6,  i=1,...,6P(X=i)=1/6, \; i=1, ..., 6. 이와 같이 이산확률변수가 취할 수치의 확률이 동일한 분포를 이산균등분포(discrete uniform distribution)라 한다.

# 베르누이 분포

동전을 던지면 앞면이나 뒷면 중 하나가 나온다. 동전던지기 실험은 결과의 수가 2개이고 결과는 서로 상호배타적이다. 이와 같이 결과가 상호배타적인 두 사건으로 구성되는 확률실험을 베르누이 시행(Bernoulli trial)이라 한다. 문으로 들어오는 사람이 '남자'이거나 '여자', 임상검사에서 '음성'이나 '양성'이거나 하는 등의 실험은 베르누이 시행의 사례이다. 주사위를 던지면 윗면에 1, ... , 6 중 하나가 나타나므로 결과의 수가 6이지만 '홀수' 또는 '짝수'가 나타나는 사건으로 구분한다면 베르누이 시행이 될 수 있다.

통계학에서는 두 가지 사건 중 한 사건을 통칭하여 성공(success)이라 부르며 또 다른 하나를 실패(failure)라고 부른다. '성공'이 나타날 확률이 pp라면 '실패'가 나타날 확률은 1p1-p가 된다. '성공'과 '실패'를 수치 1과 0으로 대체하면 확률변수가 되고 이 확률변수의 확률분포를 베르누이분포(Bernoulli distribution)라 한다.

예를 들어, 흰색 공과 검은색 공이 섞인 항아리에서 1개의 공을 꺼낼 때, 흰색 공과 검은색 공이 꺼내질 사건에 각각 1과 0을 부여하면 확률변수 XX는 다음과 같이 정의된다.

X={1,흰색공이나온경우0,검은색공이나온경우X = \begin{cases} 1, & \operatorname{흰색 공이 나온 경우} \\ 0, & \operatorname{검은색 공이 나온 경우} \\ \end{cases}

흰색 공이 나올 확률을 pp라 하면, XX가 1 또는 0을 취할 확률은 다음과 같다.

P(X=1)=pP(X=1) = p
P(X=0)=p1P(X=0) = p-1

위의 식은 다음과 같이 정리할 수 있다.
다음은 베르누이분포의 확률(질량)함수, 기댓값과 분산이다. (증명은 간단하여 생략한다.)

베르누이분포의 확률(질량)함수: P(X=x)=px(1p)(1x),  x=0,1P(X=x)=p^{x}(1-p)^{(1-x)}, \; x=0, 1
기댓값과 분산: E(X)=p,  Var(X)=p(1p)E(X)=p, \; Var(X)=p(1-p)

# 이항분포

동전던지기와 같은 베르누이 실험을 nn번 반복했을 때, 성공 횟수가 xx 번인 확률분포를 이항분포(binomial distribution)라 한다. 예를 들어, 동전던지기를 3번 했을 때, 앞면(성공)이 나오는 횟수는 0, 1, 2, 3 이렇게 4가지이다. 앞면이 나오는 횟수를 확률변수 XX라 할 때, XX가 취할 수 있는 값 각각에 대한 확률은 다음과 같다. (동전던지기에서 앞면이 나올 확률을 pp라 가정한다.)

성공횟수(xx)경우의 수확률
01 (=3C0_{3}C_{0})1p0(1p)31 \cdot p^{0}(1-p)^{3}
13 (=3C1_{3}C_{1})3p1(1p)23 \cdot p^{1}(1-p)^{2}
23 (=3C2_{3}C_{2})3p2(1p)13 \cdot p^{2}(1-p)^{1}
31 (=3C3_{3}C_{3})1p3(1p)01 \cdot p^{3}(1-p)^{0}

베르누이분포와 달리 이항분포는 성공횟수의 확률분포라는 것을 기억하도록 하자.
다음은 베르누이분포와 이항분포의 차이점이다.

  • 1회 시행할 때, 성공과 실패에 대한 확률분포는 베르누이분포이다.
  • nn회 시행할 때, 성공횟수의 확률분포는 이항분포이다.

이항분포는 베르누이분포로부터 유도될 수 있다. XjX_{j}jj 번째 베르누이 시행에서 부여된 수치라 하고, '성공' 사건에 1을 부여하고 '실패' 사건에 0을 부여하자. 그러면 X1+X2+...+XnX_{1}+X_{2}+...+X_{n}의 값은 nn 차례 베르누이 시행에서의 성공횟수가 된다. 예를 들어, 베르누이 시행을 10번 반복했을 때, X1+X2+...+X10=5X_{1}+X_{2}+...+X_{10}=5 가 나올 확률은 10번 중에 5번을 성공하는 확률로, X1,X2,...,X10X_1, X_2, ... , X_{10} 중에 5개의 확률변수가 1이 되고, 나머지 5개가 0이 되는 경우와 동일하다. 따라서, 성공할 확률이 pp인 베르누이 실험을 10번 반복했을 때 5번을 성공할 확률은 10개의 변수 중에 5개를 선택하는 경우의 수 10C5_{10}C_{5} 에 5번을 성공할 확률 p5p^5과 5번을 실패할 확률 (1p)5(1-p)^5 을 곱한 10C5p5(1p)5_{10}C_{5}p^{5}(1-p)^{5} 이 된다.

일반화하여 nn번 시행하는 이항분포에서 xx번 성공할 확률(질량)함수는 다음과 같다.

이항분포의 확률(질량)함수: P(X=x)=nCxpx(1p)nxP(X=x)= _{n}C_{x}p^{x}(1-p)^{n-x}

이항분포의 확률(질량)함수 공식을 보면, 확률은 시행횟수(nn)와 성공확률(pp)에 의해 결정된다. 이런 의미에서 이항분포를 XB(n,p)X \sim B(n,p)라 표기한다. 이러한 이항분포의 기댓값과 분산은 다음과 같다.

이항분포의 기댓값과 분산
E(X)=npE(X) = np
Var(X)=np(1p)Var(X) = np(1-p)

증명은 간단하다. 이항분포가 베르누이 분포의 결합분포임을 이용한다.
E(X)=E[(X1+X2+...+Xn)]=E(X1)+E(X2)+...+E(Xn)=npE(X)=E[(X_1+X_2+...+X_n)]=E(X_1)+E(X_2)+...+E(X_n)=np
Var(X)=Var[(X1+X2+...+Xn)]=[Var(X1)+Var(X2)+...+Var(Xn)]+2[Cov(X1,X2)+...+2Cov(X1,Xn)]=np(1p)+20=np(1p)Var(X) = Var[(X_1+X_2+...+X_n)] = [Var(X_1) + Var(X_2) + ... + Var(X_n)] + 2[Cov(X_1, X_2) + ... + 2Cov(X_1, X_n)] = np(1-p) + 2\cdot 0 = np(1-p)

# 초기하분포

상자 안에 흰색 공 4개, 검은색 공 6개가 들어있다. 이 중에서 3개를 선택할 때, 흰색 공이 1개 검은색 공이 2개 선택될 확률은 어떻게 될까?

먼저 10개의 공 중에서 3개를 선택하므로, 3개를 선택하는 모든 경우의 수는 10C3_{10}C_{3} 이다.
흰색 공 4개 중에서 1개가 선택되는 경우의 수는 4C1_{4}C_{1}, 검은색 공 6개 중에 2개가 선택되는 경우의 수는 6C2_{6}C_{2} 이므로, 확률은 4C16C210C3\frac{_{4}C_{1} \cdot _{6}C_{2}}{_{10}C_{3}} 이다.

위의 예제를 일반화 해보자.
어느 집단이 성공 또는 실패로 표시된 NN개의 개체로 구성되어 있고, 이 중에서 성공의 개수가 rr이면 실패의 총 갯수는 NrN-r이다. 이 집단에서 nn개의 추출할 때 경우의 수는 NCn_{N}C_{n}이다. 성공 횟수가 xx개이고 실패 횟수가 nxn-x 개일 경우의 수는 rCxNrCnx_{r}C_{x} \cdot _{N-r}C_{n-x} 이다. 그러므로 nn개 중 성공횟수가 xx개일 확률은 rCxNrCnxNCn\frac{_{r}C_{x} \cdot _{N-r}C_{n-x}}{_{N}C_{n}} 가 된다.

이와 같이 여러 개의 성공과 여러 개의 실패로 구성된 집단에서 성공횟수에 대한 확률분포를 초기하분포(hypergeometric distribution)라 부른다. 초기하분포의 형태는 r,N,nr, N, n에 의해 결정되므로 이 분포를 XHypergeometric(r,N,n)X \sim Hypergeometric(r, N, n) 으로 표시한다.

초기하분포의 확률(질량)함수: P(X=x)=rCxNrCnxNCnP(X=x)=\frac{_{r}C_{x} \cdot _{N-r}C_{n-x}}{_{N}C_{n}}

초기하분포와 이항분포는 모두 성공횟수에 대한 확률이라는 점에서 유사하나, 이항분포의 성공확률은 시행 횟수에 관계없이 pp로 일정한 반면, 초기하분포의 성공확률은 일정하지 않다. 즉 이항분포는 성공과 실패의 수가 무한대여서 몇 번을 시행하든 성공의 확률이 pp로 일정한 반면, 초기하분포의 경우는 성공(rr)과 실패(NrN-r)의 수가 고정되어 있어 이전에 성공을 몇 번 했는지가 현재의 성공확률을 결정한다.

# 포아송분포

포아송분포(Poission distribution)는 단위구간(시간 또는 공간) 내에서 어떤 사건의 발생횟수(성공횟수)에 대한 확률분포이다. 단위 구간의 예로 시간(예, 1시간, 10분)이나 공간(예, 1m2m^2, 5kmkm) 등을 꼽을 수 있다. 포아송분포를 응용할 수 있는 사례로 다음과 같은 경우를 들 수 있다.

  • 10분 안에 은행 ATM에 도착하는 고객의 수
  • 24시간동안 서버에 침입한 바이러스 파일의 수
  • 모니터에 발견되는 불량화소의 수

포아송 분포를 따르는 확률변수 XX를 단위구간당 발생횟수라 하고 λ\lambda 를 단위구간당 발생횟수의 평균이라 하면, 발행횟수가 xx일 확률은 다음과 같다. 포아송분포의 확률은 λ\lambda에 의해 결정되므로 포아송분포를 XPoission(λ)X \sim Poission(\lambda) 라 표기한다.

포아송분포의 확률(질량)함수, 기댓값, 분산
P(X=x)=λxeλx!P(X=x) = \frac{\lambda^{x}e^{-\lambda}}{x!}
E(X)=λ,  Var(X)=λE(X) = \lambda, \; Var(X) = \lambda

예를 들어, 어느 콜센터가 수신하는 횟수는 초당 평균 0.1회이다. 수신횟수가 포아송분포를 따른다 할 때, 1분에 3회 수신할 확률은 얼마인지 알아보자.

콜센터가 수신하는 횟수가 초당 평균 0.1회이므로 1분에 평균 6회 수신한다. 따라서 평균이 6회인 포아송분포에서 3회 수신할 확률은 P(X=3)=63e63!=0.0892P(X=3)=\frac{6^{3}e^{-6}}{3!}=0.0892 이다.

포아송분포의 확률(질량)함수는 이항분포의 확률(질량)함수로부터 얻어낼 수 있다.
아래의 증명에서 볼 수 있듯이 포아송 분포는 일정 시간(혹은 공간)내에서 무한번(nn \to \infin) 베르누이 실험을 시행하여 평균 λ(=np)\lambda (=np) 번 성공한다고 알려졌을 때, 이 시간(혹은 공간)내에서 xx 번 성공하는 이항분포라 볼 수 있다.

P(X=x)=nCxpx(1p)(nx)=nCx(λn)x(1λn)(nx),  (p=λn)=n(n1)...(nx+1)x!(λn)x(1λn)(nx)=n(n1)...(nx+1)nn(λxx!)(1λn)(nx)\begin{aligned} P(X=x) &= _nC_xp^x(1-p)^{(n-x)} \\ &= _nC_x(\frac{\lambda}{n})^x(1-\frac{\lambda}{n})^{(n-x)}, \; (\because p=\frac{\lambda}{n}) \\ &= \frac{n(n-1)...(n-x+1)}{x!}(\frac{\lambda}{n})^x(1-\frac{\lambda}{n})^{(n-x)} \\ &= \frac{n(n-1)...(n-x+1)}{n \cdot \cdot \cdot n }(\frac{\lambda^{x}}{x!})(1-\frac{\lambda}{n})^{(n-x)} \\ \end{aligned}

limnP(X=x)=1(λxx!)(1λn)(nx)=1(λxx!)(1λn)n=λxeλx!    (limn(11n)n=e1)\begin{aligned} \lim_{n \to \infin }P(X=x) &= 1 \cdot (\frac{\lambda^{x}}{x!})(1-\frac{\lambda}{n})^{(n-x)} \\ &= 1 \cdot (\frac{\lambda^{x}}{x!})(1-\frac{\lambda}{n})^{n}\\ &= \frac{\lambda^{x}e^{-\lambda}}{x!} \; \; (\because \lim_{n \to \infin}(1-\frac{1}{n})^{n}=e^{-1}) \end{aligned}

위의 증명에서와 같이 포아송분포 또한 이항분포처럼 성공횟수(발생횟수)의 확률분포이다. 단지 포아송분포에서 사용되는 성공횟수(발생횟수)가 일정한 시간이나 공간 전제로 하는 반면 이항분포는 일정한 시행횟수를 전제로 한다는 점이 다르다. 이로인해 성공횟수(발생횟수)에 대한 상한이 포아송분포에서는 존재하지 않으나 이항분포에서는 존재한다. 동전 5번을 던져 앞면이 2번 나올 확률은 이항분포의 대표적인 예이다. 시행횟수가 정해져있어 성공횟수는 최대 5번이다. 반면 포아송분포는 일정 시간 내에서 발생하는 성공횟수(발생횟수)의 평균, 즉 이항분포의 평균 E(X)=np=λE(X)=np=\lambda 만 주어지고 시행횟수 nn은 무한대를 가정한다. 따라서 포아송분포에서는 발생횟수의 상한이 존재하지 않는다.

또한 위의 증명은 nn이 커지고 pp가 작을 때 포아송분포와 이항분포가 가까워짐을 알려준다. 포아송 분포가 일정 시간 내에서의 시행횟수(nn)를 무한대로 가정하기 때문이다. 따라서 포아송 분포에서의 발생확률 p(=λn)p (=\frac{\lambda}{n})도 0에 가깝다.

다음은 포아송분포의 기댓값과 분산에 대한 증명이다.

E[X]=x=0xλxeλx!=x=1λxeλ(x1)!=t=0λt+1eλt!=λt=0λteλt!,  (t=x1)=λ1=λ\begin{aligned} E[X] &= \sum_{x=0}^{\infin}x \cdot \frac{\lambda^{x}e^{-\lambda}}{x!} = \sum_{x=1}^{\infin}\frac{\lambda^{x}e^{-\lambda}}{(x-1)!} \\ &= \sum_{t=0}^{\infin}\frac{\lambda^{t+1}e^{-\lambda}}{t!} = \lambda \cdot \sum_{t=0}^{\infin}\frac{\lambda^{t}e^{-\lambda}}{t!}, \; (t=x-1) \\ &= \lambda \cdot 1 = \lambda \end{aligned}

E[X2]=x=0x2λxeλx!=x=1xλxeλ(x1)!=t=0(t+1)λt+1eλt!=t=0tλt+1eλt!+t=0λt+1eλt!=λE[X]+λ1=λ2+λ\begin{aligned} E[X^2] &= \sum_{x=0}^{\infin}x^2 \cdot \frac{\lambda^{x}e^{-\lambda}}{x!} = \sum_{x=1}^{\infin}x\cdot \frac{\lambda^{x}e^{-\lambda}}{(x-1)!} \\ &= \sum_{t=0}^{\infin}(t+1)\frac{\lambda^{t+1}e^{-\lambda}}{t!} = \sum_{t=0}^{\infin}t \cdot \frac{\lambda^{t+1}e^{-\lambda}}{t!} + \sum_{t=0}^{\infin}\frac{\lambda^{t+1}e^{-\lambda}}{t!} \\ &= \lambda \cdot E[X] + \lambda \cdot 1 \\ & = \lambda^2 + \lambda \\ \end{aligned}

Var[X]=E[X2]E[X]2=λ2+λλ2=λVar[X] = E[X^2]-E[X]^2 = \lambda^2 + \lambda - \lambda^2 = \lambda

좀 더 쉬운 증명은 다음과 같다.

E[X]=np=λE[X] = np = \lambda
Var[X]=np(1p)=λ(1λn)λ    (limn(1λn)=1)Var[X] = np(1-p) = \lambda(1-\frac{\lambda}{n}) \sim \lambda \; \; (\because \lim_{n \to \infin}(1-\frac{\lambda}{n})=1)

profile
Data Engineer @ SKT

0개의 댓글