음이항 분포
확률 변수열 X1,X2,...,Xy+r에 대해 Xi∼B(p), iid일 때,
확률 변수 Y를 Y = r번 성공까지의 실패 횟수로 정의하면 Y∼NB(r,p)라고 한다.
예를 들어 성공 확률이 1/3인 독립적인 베르누이 시행들에 대해 5번 성공할 때 까지의 실패 횟수가 궁금하다면, Y∼NB(5,1/3)을 통해 실패 횟수의 확률 분포를 알 수 있다.
마지막 y+r번째 시행에서는 반드시 r번째 성공이 결과로 나와야 하기 때문에, 이는 마지막 시행 전까지의 y+r−1번의 시행에서 r−1번 성공 및 y번 실패하고, 마지막 시행에서 성공이 나오는 것과 동일하다. 따라서 확률 질량 함수는 다음과 같다.
pY(Y=y)=(r−1y+r−1)pr(1−p)yI(y∈{0,1,2,...})
삼항 분포, 다항 분포
삼항 분포와 다항 분포는 이항 분포의 일반화로, n번의 시행에서 각 시행 결과가 분류될 수 있는 확률 변수의 값이 두 개보다 많은 경우의 확률 분포를 다룬다.
삼항 분포
이항 분포에서는 시행 결과가 0 또는 1 두가지로 분류되었다. 여기서 분류될 수 있는 카테고리를 하나 더 늘려 총 세가지의 분류 가능한 카테고리를 고려한 것이 삼항 분포다.
삼항 분포에서는 카테고리1에 시행 결과가 속하는 횟수를 나타내는 확률 변수 X와, 카테고리2에 시행 결과가 속하는 횟수를 나타내는 확률 변수 Y를 사용한다. 따라서 각 확률 변수는 각 카테고리를 대표한다고 생각하면 쉽게 이해할 수 있다.
마지막 카테고리에 시행 결과가 속하는 횟수는 n−X−Y로 나타낼 수 있기 때문에 카테고리는 3개지만 확률 변수는 2개만 사용한다. 따라서 삼항 분포는 확률 벡터를 사용해 표현한다.
(X,Y)∼T(n,p1,p2)pX,Y(x,y)=x!y!(n−x−y)!n!p1xp2y(1−p1−p2)n−x−yI(x,y≥0)I(0≤x+y≤n)
삼항 분포의 주변 확률 함수와 조건부 확률 함수
삼항 분포의 주변 확률 함수는 이항 분포를 따른다.
X∼Binom(n,p1)Y∼Binom(n,p2)
삼항 분포의 조건부 확률 함수또한 이항 분포를 따른다.
Y∣X=x∼Binom(n−x,1−p1p2)X∣Y=y∼Binom(n−y,1−p2p1)
다항 분포
다항 분포는 n번의 시행에서, 카테고리를 임의의 k개로 늘린 경우에 시행 결과가 각 카테고리에 속하는 횟수에 대한 분포다.
k개의 카테고리에 각 시행 결과가 속하는 횟수를 표현하기 위해서는, 총 k-1개의 확률 변수가 필요하다. 마지막 카테고리는 삼항분포에서와 동일한 원리로 n−X1−X2−...−Xk로 표현할 수 있기 때문이다.
X=(X1,X2,...,Xk−1)pX(x1,x2,...,xk−1)=x1!x2!...(n−x1−x2−...−xk−1)!n!p1x1p2x2...(1−p1−p2−...−pk−1)(n−x1−x2−...−xk−1)
다항 분포의 주변 확률 분포
다항 분포에서, 각각의 단일 확률 변수의 주변 확률 분포는 이항 분포를 따르고, 두 확률 변수의 확률 벡터는 삼항 분포를 따르고, ... 귀납적으로 t개의 확률 변수의 확률 벡터는 (t+1)항 분포를 따른다.
(Xi,Xj)∼T(n,pi,pj)