여러가지 확률 분포

여러가지 확률분포들에 대해 살펴보고, 각각 평균과 분산이 어떻게 계산되는지 알아보자.

이산 균등 분포

취하는 확률들이 모두 같은 확률분포이다.

이산균등분포의 f(x)는 다음과 같이 계산된다.

f(x)=xnf(x)=\frac{x}{n}

이때 평균과 분산은 다음과 같이 계산된다.

E(x)=x=1nxf(x)=x=1nxn=1nn(n+1)2=n+12E(x)=\sum_{x=1}^n x \cdot f(x) = \sum_{x=1}^n \frac{x}{n}=\frac{1}{n}\frac{n\,(n+1)}{2}=\frac{n+1}{2}
Var(x)=x=1nx2f(x){E(x)}2=x=1nx2n(n+12)2=1nn(n+1)(2n+1)6(n+12)2=n2112Var(x)=\sum_{x=1}^n x^2 f(x)-\{E(x)\}^2=\sum_{x=1}^n \frac{x^2}{n}-(\frac{n+1}{2})^2=\frac{1}{n}\frac{n(n+1)(2n+1)}{6}-(\frac{n+1}{2})^2=\frac{n^2-1}{12}

이때 n은 데이터들의 총 개수이다.


베르누이 분포

실험 시행 결과가 성공 or 실패 중 하나로 결정되는 사건에 대한 확률 분포이다.

이때, 성공할 확률을 p, 실패할 확률을 q라고 하자. (이때 p + q = 1)

각각의 시행들은 독립적이라고 가정한다.


베르누이 분포의 f(x)는 다음과 같이 계산된다.

f(x)=px(1p)1x(x=0  or  1)f(x)=p^x(1-p)^{1-x}\quad(x=0\;or\;1)

성공 또는 실패 중 하나이기 때문에, x가 0 또는 1로 결정된다.


이때 평균과 분산은 다음과 같이 계산된다.

E(x)=1×p+0×q=pE(x)=1\times p+0 \times q =p
Var(x)=E(x2){E(x)}2=1×p+0×qp2=pp2=p(1p)Var(x)=E(x^2)-\{E(x)\}^2=1\times p+0 \times q -p^2 = p-p^2=p(1-p)

이항분포

베르누이 분포를 여러번 시행한 것이 이항분포이다.

이때 이항분포를 다음과 같이 표현할 수 있다.

B(n,p)B(n,p)

이때 n은 시행횟수이며 p는 성공확률을 의미한다.


이항분포의 f(x)는 다음과 같이 계산된다.

f(x)=nCxpx(1p)nx(x=0,1,...,n)f(x)=_nC_x\,p^x(1-p)^{n-x}\quad(x=0,\,1,...,\,n)

참고로 이때 nCk는 다음과 같이 계산된다.

nCk=n!k!(nk)!_nC_k=\frac{n!}{k!(n-k)!}

n!은 1~n까지의 수로 만들 수 있는 경우의 수로 0!일 경우에는 0~1로 만들 수 있는 경우의 수이기에 0! = 1 이 됨을 주의하자.


이때 평균과 분산은 다음과 같이 계산된다.

E(x)=npE(x)=np
Var(x)=np(1p)Var(x)=np(1-p)

이 이항분포의 평균과 분산은 베르누이 분포가 n번 시행된 것이므로 베르누이 분포의 평균과 분산에 n을 곱한 값들이다.

초기하 분포

N개의 유한한 모집단에서 n번의 비복원 추출을 하는 확률분포이다.

이때 M개는 성공하고 (N-M)개는 실패한다고 가정하자.

이때 초기하 분포를 다음과 같이 표현할 수 있다.

H(N,M,n)H(N,M,n)

초기하 분포의 f(x)는 다음과 같이 계산된다.

f(x)=MCxNMCnxNCn(0xM,0nxNM)f(x)=\frac{_MC_x \cdot _{N-M}C_{n-x}}{_NC_n}\quad (0\leq x\leq M,\, 0\leq n-x \leq N-M)

이때 평균과 분산은 다음과 같이 계산된다.

E(x)=nMNE(x)=n\frac{M}{N}
Var(x)=nMN(1MN)(NnN1)Var(x)=n\frac{M}{N}(1-\frac{M}{N})(\frac{N-n}{N-1})

이때 M/N은 성공하는 경우를 전체 경우로 나눈 것으로 p와 유사한 값을 갖게 된다.

또한 분산의 마지막에 곱해진 term은 다음과 같이 계산될 수 있음을 생각할 수 있다.

limNNnN1=1\lim_{N \to \infty}\frac{N-n}{N-1}=1

따라서 초기하 분포의 평균과 분산은 모집단의 수 즉, N이 증가할수록 이항분포의 평균과 분산인 np, npq와 유사한 값을 갖게 된다고 볼 수 있다.

limNH(N,M,n)B(n,MN)\lim_{N \to \infty} H(N,M,n) \simeq B(n,\frac{M}{N})

기하 분포

여러번 시도 끝에 성공이 나오는 확률을 구하는 분포이다.

이때 성공할 확률을 p, 실패할 확률을 q 라고 할 때, 기하분포를 다음과 같이 표현할 수 있다.

Geo(p)orNB(1,p)Geo(p)\,or\,NB(1,p)

기하분포 p(x)는 다음과 같이 계산된다.

P(x)=qx1pP(x)=q^{x-1}\cdot p

이때 평균과 분산은 다음과 같이 계산된다.

E(x)=1pE(x)=\frac{1}{p}
Var(x)=qp2Var(x)=\frac{q}{p^2}

음이항 분포

총 x번 중 k번 성공하고, 마지막 x번째에도 성공할 확률분포이다. 기하분포가 여러 번 있다고 생각하면 이해하기 쉬울 것 같다.

이때 성공할 확률을 p, 실패할 확률을 q 라고 할 때, 음이항 분포를 다음과 같이 표현할 수 있다.

NB(k,p)NB(k,p)

음이항 분포 p(x)는 다음과 같이 계산된다.

f(x)=x1Ck1pkqxk(xk)f(x)=_{x-1}C_{k-1}p^k \cdot q^{x-k}\quad (x\geq k)

참고로 이때 x-1Ck-1는 다음과 같이 계산된다.

x1Ck1=(x1)!(k1)!(xk)!_{x-1}C_{k-1} = \frac{(x-1)!}{(k-1)!(x-k)!}

맨 마지막은 항상 성공이기 때문에 마지막 성공을 빼고 시도한 (x-1)번 중 성공한 (k-1)끼리는 순서가 없고, 실패한 (x-k)끼리도 순서가 없기 때문에 경우의 수가 위와 같이 계산된다.


이때 평균과 분산은 다음과 같이 계산된다.

E(x)=kpE(x)=\frac{k}{p}
Var(x)=kqp2Var(x)=\frac{kq}{p^2}



0개의 댓글