확률이론과 확률분포

choyunjeong·2024년 12월 7일

수리통계학 제 5판 - 송성주, 전명식

목록 보기

1/20

확률 이론
반복시행마다 결과가 달라지는 사건을 비결정 수리모형으로 통계적 정규성을 규명하기 위하야 확률모형을 고려하기로 한다.

1.1. 표본공간과 사건

실험: 관찰결과를 얻기 위한 과정
표본공간: 모든 관찰 가능한 결과의 집합
사건: 표본 공간의 부분집합본 공간의 부분집합

표본공간 예시
동전 3회 던지는 실험의 표본공간

S=\{HHH,HHT,HTH,THH,HTT,THT,TTH,TTT\}

앞의 실험에서 앞면이 나오는 횟수

S=\{0,1,2,3\}

어떤 기계의 수명시간

S=\{x|0\leq x<\infty\}

이 기계가 20시간 작동할 때

S=\{x|x\geq 20\}

사건 예시
주사위를 1회 던져 나오는 눈의 수를 관찰할 때 표본공간

S=\{0,1,2,3,4,5,6\}

짝수의 눈이 나오는 사건 $A_1$ , 3의 배수가 나오는 사건 $A_2$

A_1 =\{2,4,6\},\quad A_2=\{3,6\}

1.2 확률의 정의

상대도수의 극한을 사용하는 방법이 가장 널리 받아들여지는 확률의 해석이다.

정의: 실험을 무한히 반복한다는 가정하에 상대도수 $m/n$ 의 극한값을 사건 $A$ 가 일어날 확률 $P(A)$ 로 정의

확률 공리

임의의 사건 $A$ 에 대하여 $P(A)\geq0$ 이다.
$P(S)=1$ 이다.
표본공간 $S$ 에 정의된 사건열 $A_1,A_2,\ldots$ 가 있다고 하자. 이제 모든 $i\neq j$ 에 대하여 $A_i\cap A_j=\emptyset$ 이면 $P(\bigcup_{i=1}^{\infty}A_i)=\sum_{i=1}^{\infty}P(A_i)$ 이다.

예
주사위를 1회 던져 나오는 눈의 수를 관찰할 때 표본공간 $S=\{0,1,2,3,4,5,6\}$ 에 속한 값 모두 확률 $1/6$ 을 가졌다고 가정. 사건 $A_1$ 와 $A_2$ 를

A_1 =\{2,4,6\},\quad A_2=\{3,6\}

으로 표현하면 $A_1\cap A_2=\{6\}$ , $A_1\cup A_2=\{2,3,4,6\}$ 이 된다. 여기에서 사건의 합의 확률을 다음과 같이 구한다.

\begin{aligned} P(A_1\cup A_2) &=P(A_1)+P(A_2)-P(A_1\cap A_2)\\ &=\frac{3}{6}+\frac{2}{6}-\frac{1}{6} \\ &=\frac{2}{3} \end{aligned}

2.1 확률변수의 정의

표본공간 $S$ 는 수치적으로 또는 비수치적으로 표현될 수 있지만 많은 경우 실험결과로부터 계산될 수 있는 어떤 수치적인 양이 관심의 대상이 된다. 이 때 실험결과를 표현하는 이 수치적 양을 확률변수 (random variable)라고 정의한다. 확률 변수의 값은 랜덤하지만 그 값들이 나올 가능성은 미리 생각해볼 수 있으며, 이를 확률변수의 확률분포 (probability distribution)라고 한다.

예
동전을 3회 반복하였을 경우 관심 있는 변수로 $X$ (=앞면이 나오는 횟수)를 생각해 보자.
이 경우 표본공간 $S=\{HHH,\ HHT,\ HTH,\ THH,\ HTT,\ THT,\ TTH,\ TTT\}$ 와
그에 대응하는 확률변수 $X$ 는 다음과 같다. 이 때 앞면이 나오는 확률을 $p$ 로 정의한다.

\begin{aligned} &P(X=0)=P\{TTT\}=(1-p)^3 \\[5pt] &P(X=1)=P\{HTT,THT,TTH\}=(1-p)^3 \\[5pt] &P(X=2)=P\{HHT, HTH, THH\}=(1-p)^3 \\[5pt] &P(X=3)=P\{HHH\}=(1-p)^3 \end{aligned}

2.2 확률밀도함수 및 확률분포함수

확률변수 $X$ 의 확률밀도함수가 $f(x)$ 일 때, 변수 $X$ 가 실직선상의 어떤 집합 $A\ (a,b]$ 에 속할 확률은

P(X\in A)=\int_Af(x)dx

이다. (연속형만 표기)

결론

동전 3회 던지는 실험의 표본공간

S=\{HHH,HHT,HTH,THH,HTT,THT,TTH,TTT\}

에서 모두 앞면이 나오는 사건 $A_1$ 는 다음과 같다.

A_1=\{H,H,H\}

이때 확률변수는 보통 수치적 양으로 앞면이 나오는 횟수로 표현 가능하며 사건 $A_1$ 이 일어날 확률은 다음과 같이 표기가 가능하다.

P(X=3)=P\{H,H,H\}=\frac{1}{8}

사건이 더 다양하게 있을 때 $A=\{A_1,A_2,\ldots\}$ 또는 $A =(a,b]$ 의 확률변수의 예상값들을 확률분포로 표현할 수 있다. (연속형으로 표기)

P(X\in A)=\int_Af(x)dx

2.3. 결합 및 조건부 확률분포

2.3.1. 결합 확률분포

$k$ 개의 확률변수 $X_1,X_2,\ldots, X_k$ 를 확률벡터 $\bold{X}=(X_1,X_2,\ldots, X_k)$ 로 표현하기도 한다.

P[(X,Y)\in A]=\int\int_A f_{X,Y}(x,y)dxdy

예
$f_{X,Y}(x,y)=xye^{-(x+y)}, \quad x>0,\ y>0$ 으로 주어졌을 때 $X\geq 2Y$ 의 확률은?

P(X\geq 2Y)=\int_{0}^{\infty}\int_{0}^{x/2}xye^{-(x+y)}dydx

2.3.2 주변 확률분포

두 확률변수의 결합에 관심이 있더라도 각 변수만의 분포를 구하고 싶은 경우

f_X(x)=\int_{-\infty}^{\infty}f_{X,Y}(x,y)dy,\quad f_Y(y)=\int_{-\infty}^{\infty}f_{X,Y}(x,y)dx

증명

\begin{aligned} f_X(x) &=(d/dx)F_X(x) \\[5pt] &=(d/dx)P(X\leq x, -\infty<Y<\infty) \\[10pt] &=\frac{d}{dx}\left[\int_{-\infty}^{x}\int_{-\infty}^{\infty}f_{X,Y}(u,y)dydu\right] \\[10pt] &= \int_{-\infty}^{\infty}f_{X,Y}(x,y)dy \end{aligned}

2.3.3. 조건부 확률분포

몇 개의 변수값이 주어졌다는 조건하에 나머지 변수들의 분포에 대한 이론
$X=x$ 가 주어졌을 때, $Y|x$ 의 조건부 확률밀도함수는

f_{Y|x}(y|x)=\dfrac{f_{X,Y}(x,y)}{f_X(x)}, \quad f_X(x)>0

조건부 확률분포를 구하기 위해서 결합확률밀도함수의 식에서 조건에 맞는 주변부 확률밀도함수를 구한 후 계산:

예
$f_{X,Y}(x,y)=x^2e^{-x(y+1)},\ (x>0,\ y>0)$ 에서 $X=x$ 가 주어졌을 때 $Y|x$ 의 조건부 확률밀도함수

조건부 확률밀도함수를 구하기 위해 먼저 $X$ 의 주변부 확률밀도함수를 구한다.

\begin{aligned} f_{Y|x}(y|x) &=\frac{f_{X,Y}(x,y)}{f_X(x)} \\[10pt] &=\dfrac{x^2e^{-x(y+1)}}{\int_{0}^{\infty}x^2e^{-x(y+1)}dy} \\[10pt] &=\dfrac{e^{-xy}}{\int_{0}^{\infty}e^{-xy}dy} \\[10pt] &=\dfrac{e^{-xy}}{0-(-1/x)} \\[10pt] &=xe^{-xy},\quad y>0 \end{aligned}

[참고문헌]

수리통계학 제 5판 - 송성주, 전명식

choyunjeong

다음 포스트