여러가지 확률 분포
여러가지 확률분포들에 대해 살펴보고, 각각 평균과 분산이 어떻게 계산되는지 알아보자.
이산 균등 분포
취하는 확률들이 모두 같은 확률분포이다.
이산균등분포의 f(x)는 다음과 같이 계산된다.
f(x)=nx
이때 평균과 분산은 다음과 같이 계산된다.
E(x)=x=1∑nx⋅f(x)=x=1∑nnx=n12n(n+1)=2n+1
Var(x)=x=1∑nx2f(x)−{E(x)}2=x=1∑nnx2−(2n+1)2=n16n(n+1)(2n+1)−(2n+1)2=12n2−1
이때 n은 데이터들의 총 개수이다.
베르누이 분포
실험 시행 결과가 성공 or 실패 중 하나로 결정되는 사건에 대한 확률 분포이다.
이때, 성공할 확률을 p, 실패할 확률을 q라고 하자. (이때 p + q = 1)
각각의 시행들은 독립적이라고 가정한다.
베르누이 분포의 f(x)는 다음과 같이 계산된다.
f(x)=px(1−p)1−x(x=0or1)
성공 또는 실패 중 하나이기 때문에, x가 0 또는 1로 결정된다.
이때 평균과 분산은 다음과 같이 계산된다.
E(x)=1×p+0×q=p
Var(x)=E(x2)−{E(x)}2=1×p+0×q−p2=p−p2=p(1−p)
이항분포
베르누이 분포를 여러번 시행한 것이 이항분포이다.
이때 이항분포를 다음과 같이 표현할 수 있다.
이때 n은 시행횟수이며 p는 성공확률을 의미한다.
이항분포의 f(x)는 다음과 같이 계산된다.
f(x)=nCxpx(1−p)n−x(x=0,1,...,n)
참고로 이때 nCk는 다음과 같이 계산된다.
nCk=k!(n−k)!n!
이 n!은 1~n까지의 수로 만들 수 있는 경우의 수로 0!일 경우에는 0~1로 만들 수 있는 경우의 수이기에 0! = 1 이 됨을 주의하자.
이때 평균과 분산은 다음과 같이 계산된다.
Var(x)=np(1−p)
이 이항분포의 평균과 분산은 베르누이 분포가 n번 시행된 것이므로 베르누이 분포의 평균과 분산에 n을 곱한 값들이다.
초기하 분포
N개의 유한한 모집단에서 n번의 비복원 추출을 하는 확률분포이다.
이때 M개는 성공하고 (N-M)개는 실패한다고 가정하자.
이때 초기하 분포를 다음과 같이 표현할 수 있다.
초기하 분포의 f(x)는 다음과 같이 계산된다.
f(x)=NCnMCx⋅N−MCn−x(0≤x≤M,0≤n−x≤N−M)
이때 평균과 분산은 다음과 같이 계산된다.
E(x)=nNM
Var(x)=nNM(1−NM)(N−1N−n)
이때 M/N은 성공하는 경우를 전체 경우로 나눈 것으로 p와 유사한 값을 갖게 된다.
또한 분산의 마지막에 곱해진 term은 다음과 같이 계산될 수 있음을 생각할 수 있다.
N→∞limN−1N−n=1
따라서 초기하 분포의 평균과 분산은 모집단의 수 즉, N이 증가할수록 이항분포의 평균과 분산인 np, npq와 유사한 값을 갖게 된다고 볼 수 있다.
N→∞limH(N,M,n)≃B(n,NM)
기하 분포
여러번 시도 끝에 성공이 나오는 확률을 구하는 분포이다.
이때 성공할 확률을 p, 실패할 확률을 q 라고 할 때, 기하분포를 다음과 같이 표현할 수 있다.
Geo(p)orNB(1,p)
기하분포 p(x)는 다음과 같이 계산된다.
P(x)=qx−1⋅p
이때 평균과 분산은 다음과 같이 계산된다.
E(x)=p1
Var(x)=p2q
음이항 분포
총 x번 중 k번 성공하고, 마지막 x번째에도 성공할 확률분포이다. 기하분포가 여러 번 있다고 생각하면 이해하기 쉬울 것 같다.
이때 성공할 확률을 p, 실패할 확률을 q 라고 할 때, 음이항 분포를 다음과 같이 표현할 수 있다.
음이항 분포 p(x)는 다음과 같이 계산된다.
f(x)=x−1Ck−1pk⋅qx−k(x≥k)
참고로 이때 x-1Ck-1는 다음과 같이 계산된다.
x−1Ck−1=(k−1)!(x−k)!(x−1)!
맨 마지막은 항상 성공이기 때문에 마지막 성공을 빼고 시도한 (x-1)번 중 성공한 (k-1)끼리는 순서가 없고, 실패한 (x-k)끼리도 순서가 없기 때문에 경우의 수가 위와 같이 계산된다.
이때 평균과 분산은 다음과 같이 계산된다.
E(x)=pk
Var(x)=p2kq