음이항 분포, 다항 분포

STATS·2023년 6월 27일
0

수리통계학

목록 보기
13/40

음이항 분포

확률 변수열 X1,X2,...,Xy+rX_1, X_2, ..., X_{y+r}에 대해 XiB(p), iidX_i \sim B(p), \ iid일 때,
확률 변수 YYYY = rr번 성공까지의 실패 횟수로 정의하면 YNB(r,p)Y \sim NB(r, p)라고 한다.

예를 들어 성공 확률이 1/3인 독립적인 베르누이 시행들에 대해 5번 성공할 때 까지의 실패 횟수가 궁금하다면, YNB(5,1/3)Y \sim NB(5, 1/3)을 통해 실패 횟수의 확률 분포를 알 수 있다.

마지막 y+ry+r번째 시행에서는 반드시 rr번째 성공이 결과로 나와야 하기 때문에, 이는 마지막 시행 전까지의 y+r1y+r-1번의 시행에서 r1r-1번 성공 및 yy번 실패하고, 마지막 시행에서 성공이 나오는 것과 동일하다. 따라서 확률 질량 함수는 다음과 같다.

pY(Y=y)=(y+r1r1)pr(1p)yI(y{0,1,2,...})p_Y(Y=y) = \binom{y+r-1}{r-1}p^r(1-p)^{y}I(y \in \{0, 1, 2, ...\})

삼항 분포, 다항 분포

삼항 분포와 다항 분포는 이항 분포의 일반화로, n번의 시행에서 각 시행 결과가 분류될 수 있는 확률 변수의 값이 두 개보다 많은 경우의 확률 분포를 다룬다.

삼항 분포

이항 분포에서는 시행 결과가 0 또는 1 두가지로 분류되었다. 여기서 분류될 수 있는 카테고리를 하나 더 늘려 총 세가지의 분류 가능한 카테고리를 고려한 것이 삼항 분포다.

삼항 분포에서는 카테고리1에 시행 결과가 속하는 횟수를 나타내는 확률 변수 XX와, 카테고리2에 시행 결과가 속하는 횟수를 나타내는 확률 변수 YY를 사용한다. 따라서 각 확률 변수는 각 카테고리를 대표한다고 생각하면 쉽게 이해할 수 있다.

마지막 카테고리에 시행 결과가 속하는 횟수는 nXYn-X-Y로 나타낼 수 있기 때문에 카테고리는 3개지만 확률 변수는 2개만 사용한다. 따라서 삼항 분포는 확률 벡터를 사용해 표현한다.

(X,Y)T(n,p1,p2)pX,Y(x,y)=n!x!y!(nxy)!p1xp2y(1p1p2)nxyI(x,y0)I(0x+yn)(X, Y) \sim T(n, p_1, p_2) \\ {} \\ p_{X, Y}(x, y) = \frac{n!}{x!y!(n-x-y)!}p_1^xp_2^y(1-p_1-p_2)^{n-x-y}I(x, y \ge 0)I(0 \le x+y \le n)

삼항 분포의 주변 확률 함수와 조건부 확률 함수

삼항 분포의 주변 확률 함수는 이항 분포를 따른다.

XBinom(n,p1)YBinom(n,p2)X \sim Binom(n, p_1) \\ Y \sim Binom(n, p_2)

삼항 분포의 조건부 확률 함수또한 이항 분포를 따른다.

YX=xBinom(nx,p21p1)XY=yBinom(ny,p11p2)Y \lvert X=x \sim Binom(n-x, \frac{p_2}{1-p_1})\\ X \lvert Y = y \sim Binom(n-y, \frac{p_1}{1-p_2})

다항 분포

다항 분포는 n번의 시행에서, 카테고리를 임의의 k개로 늘린 경우에 시행 결과가 각 카테고리에 속하는 횟수에 대한 분포다.

k개의 카테고리에 각 시행 결과가 속하는 횟수를 표현하기 위해서는, 총 k-1개의 확률 변수가 필요하다. 마지막 카테고리는 삼항분포에서와 동일한 원리로 nX1X2...Xkn-X_1-X_2-...-X_k로 표현할 수 있기 때문이다.

X=(X1,X2,...,Xk1)pX(x1,x2,...,xk1)=n!x1!x2!...(nx1x2...xk1)!p1x1p2x2...(1p1p2...pk1)(nx1x2...xk1)X = (X_1, X_2, ..., X_{k-1}) \\ p_{X}(x_1, x_2, ..., x_{k-1}) = \frac{n!}{x_1!x_2!...(n-x_1-x_2-...-x_{k-1)}!}p_1^{x_1}p_2^{x_2}...(1-p_1-p_2-...-p_{k-1})^{(n-x_1-x_2-...-x_{k-1})}

다항 분포의 주변 확률 분포

다항 분포에서, 각각의 단일 확률 변수의 주변 확률 분포는 이항 분포를 따르고, 두 확률 변수의 확률 벡터는 삼항 분포를 따르고, ... 귀납적으로 t개의 확률 변수의 확률 벡터는 (t+1)항 분포를 따른다.

(Xi,Xj)T(n,pi,pj)(X_i, X_j) \sim T(n, p_i, p_j)

0개의 댓글