확률 변수의 확률 함수, 누적 분포 함수

STATS·2023년 6월 19일
0

수리통계학

목록 보기
6/40

확률 변수의 확률 함수

확률 변수의 서포트가 표본 공간이라면, 새로운 사건(서포트의 부분 집합)도 정의할 수 있다.

예를 들어 X=5X = 5도 사건이 될 수 있고, 3<X<43 < X < 4도 사건이 될 수 있다.

새로운 사건이 정의된다면, 이들에 대한 새로운 확률도 부여할 수 있을 것이다.
따라서 서포트의 사건들에 확률을 부여할 확률 함수를 새로 정의해야 한다.

확률 변수의 사건들의 확률에 대한 분포를 전체적으로 확률 분포(Probability Distribution)라고 한다.

확률 변수의 종류

새로운 확률 함수를 정의하기에 앞서, 확률 변수의 특이한 점을 살펴보아야 한다.
바로 확률 변수의 서포트가 가질 수 있는 값의 특성에 따라 확률 함수의 형태가 달라진다는 점이다.

이산 확률 변수

이산 확률 변수는 서포트의 원소들이 "다음으로 큰 수를 지정할 수 있는 경우"의 확률 변수를 의미한다. 대표적으로 정수, 자연수, 혹은 실수의 부분집합이더라도 셀 수 있는 경우 등을 포함한다.

예를 들어 RX={1/2,0.77899,4,2}R_X = \{1/2, 0.77899, 4, -2\}이면, 이는 복잡하긴 하지만 가장 작은 수는 -2, 그 다음 큰 수는 1/2, 그 다음 큰수는 0.77899 ...와 같이 다음으로 큰 수/작은 수를 지정할 수 있다.

이산 확률 변수의 확률 함수는 확률 질량 함수(Probability Mass Function)이라고 한다.
확률 질량 함수는 서포트 내의 원소 각각에 확률을 할당한다. 기호로는 다음과 같이 표현한다.

P(X=a)=paP(X = a) = p_a

확률 변수 XX의 서포트 내에 있는 원소 aa에 대응하는 확률이 pap_a라고 해석한다.
또는 확률 시행과 표본 공간의 관점에서, 확률 시행의 결과 X=aX = a가 나올 확률이 pap_a라고 해석할 수 있다.

P(X=a)P(X = a)라는 표기법은 확률 시행의 결과로 aa가 발생할 확률을 의미하는 것이다. 그러나 확률 변수가 여러 개 등장하는 경우 어떤 확률 변수에 대한 사건인지 헷갈릴 수 있기 때문에 X=aX=a라는 표기법을 사용한다.

즉, X=aX = a는 확률 시행의 결과로 확률 변수 XX서포트 RXR_X의 사건 {a}\{a\}의 발생을 의미한다.
P(X=a)P(X=a)는 위의 사건이 발생할 확률을 의미한다.

예를 들어 위의 예시에서 P(X=1/2)=0.4P(X = 1/2) = 0.4, P(X=0.77899)=0.2P(X = 0.77899) = 0.2와 같이 표현할 수 있다.

확률 질량 함수의 성질

확률 질량 함수는 P(X=x)P(X=x)가 곧 {X=x}\{X=x\} 사건의 확률이라는 특징이 있다.
그리고 확률 질량 함수도 확률 함수이므로, 아래의 확률 공리를 만족한다.

  1. 0P(X=x)10 \le P(X= x) \le 1
  2. RXP(X=x)=1\sum_{R_X}P(X=x) = 1

조건 1.은 서포트의 모든 사건에 대한 확률이 0 이상 1 이하여야 한다는 확률 공리의 기본적인 조건을 의미한다. 서포트를 새로운 표본 공간으로 정의했으므로, 이에 대응하는 사건들인 X=xX = x의 확률은 모두 0 이상 1 이하다.

조건 2.는 확률 공리에서 표본 공간에 대응하는 사건이 발생할 확률이 1이라는 것과 동일하다. 확률 변수의 서포트의 원소들은 모두 MECE를 만족하므로, 다음을 만족한다.

확률 변수 XX의 서포트 RXR_X의 각 원소를 x1,x2,...xnx_1, x_2, ...x_n이라고 하자.

i=1n{X=xi}=, i=1n{X=xi}=RXP(i=1n{X=xi})=RXP(X=x)=P(RX)=1\bigcap_{i=1}^n \{X = x_i\} = \empty, \ \bigcup_{i=1}^n \{X = x_i\} = R_X \\ {} \\ P(\bigcup_{i=1}^n \{X = x_i\}) = \sum_{R_X}P(X=x) = P(R_X) = 1

연속 확률 변수

연속 확률 변수는 이산 확률 변수와 반대로, 서포트의 각 원소들의 "다음으로 큰 수/작은 수"를 지정할 수 없는 확률 변수를 의미한다.

예를 들어 RX=[3,6.5]R_X = [3, 6.5]라고 하면, 3 다음으로 큰 수가 무엇인지 콕 집어 지정할 수가 없다. 구간이 실수로 지정되어 있기 때문이다.

연속 확률 변수의 확률 함수는 확률 밀도 함수(Probability Density Function)이라고 한다.
확률 밀도 함수는 서포트 내의 모든 구간에 확률을 할당한다. 기호로는 fX(x)f_X(x)로 표현한다.

확률 밀도 함수의 성질

주의할 점은 확률 밀도 함수의 함수값은 {X=x}\{X=x\}의 확률이 아니라는 점이다.
확률 밀도 함수는 임의의 구간에서의 확률만 정의하며, 특정 점에서의 확률은 항상 0이다.

왜냐하면 연속 확률 변수의 개별 점에 확률을 할당하려 한다면 무한 개의 점에 확률을 부여할 수 있어야 한다. 그러나 무한 개의 점에 확률을 할당하려 하면 개별 점의 확률은 0으로 수렴할 수밖에 없다.

따라서 확률 밀도 함수에서는 개별 점이 아닌 구간에 확률을 부여하여, 적분을 통해 구간에 대한 확률을 계산할 수 있게 한다.

이러한 상황을 고려했을 때, 확률 밀도 함수는 아래의 조건을 만족한다.

  1. fX(x)0f_X(x) \ge 0
  2. fX(x)dx=1\int_{-\infin}^\infin f_X(x)dx = 1
  3. P(X=x)=0P(X = x) = 0
  4. P(a<X<b)=abfX(x)dxP(a < X < b) = \int_a^b f_X(x)dx

조건 1.은 확률 함수의 값이 항상 0 이상일 것을 요구한다. 단 확률 질량 함수와 달리 함수값이 곧 확률은 아니므로 1 이하여야 한다는 제한 조건은 없다.

조건 2.는 확률 함수의 전체 구간 적분 값은 1이 되어야 한다는 것을 의미한다. 이는 확률 질량 함수의 조건 2와 비슷한 역할을 한다.

조건 3.은 개별 포인트의 확률(Point Mass)은 어느 점에서나 0이라는 것을 의미한다.

조건 4.는 임의의 구간의 사건이 발생할 확률을 확률 밀도 함수의 적분을 통해 구할 수 있다는 것을 의미한다.

예를 들어 fX(x)=xI(0x2)f_X(x) = xI(0 \le x \le \sqrt{2})일 때, 사건 {0<X<1}\{0 < X < 1\}의 확률은 P(0<X<1)=01fX(x)dx=1/2P(0 < X < 1) = \int_0^1 f_X(x)dx = 1/2로 구할 수 있다.

두 종류가 섞여 있는 경우

확률 변수가 이산형/연속형 두 종류로 정확히 구분되는 것은 아니다.
예를 들어 확률 변수 XX의 서포트 RXR_X가 다음과 같다고 하자.

RX={3,4,5,(7,9)}R_X = \{-3, 4, 5, (7, 9)\}

이 경우 XX는 -3, 4, 5의 값을 가지거나 7에서 9 사이의 값을 가질 수 있다.

서포트가 구간과 개별 값을 모두 포함하므로 어떤 확률 함수를 이용해 사건들에 확률을 부여해야 할지도 애매하다.

누적 분포 함수

위와 같이 확률 함수를 구하기 애매한 경우가 존재한다. 하지만 이런 경우에도 각 사건의 확률을 구할 수 있어야 하는데, 누적 분포 함수(Cumulative Distribution Function)을 이용하면 모든 확률 변수에 대해 사건들의 확률을 구할 수 있다.

이 것이 가능한 이유는 누적 분포 함수가 모든 확률 변수의 경우에 존재하기 때문이다. 따라서 누적 분포 함수는 확률 변수가 이산형이든, 연속형이든, 혼합되어 있든 항상 존재한다.

또한 누적 분포 함수는 각 확률 분포에 유일하게 대응한다. 즉 누적 분포 함수를 알면 확률 변수의 확률 분포를 확정할 수 있다.

이러한 성질 때문에 확률 분포가 복잡할수록 확률 함수가 아닌 누적 분포 함수로 확률 분포를 표현하는 경우가 많다.

누적 분포 함수의 정의는 아래와 같다.

FX(x)=P(Xx)F_X(x) = P(X \le x)

누적 분포 함수는 임의의 xx에 대해 사건 {Xx}\{X \le x\}, 즉 확률 시행의 결과가 xx보다 작거나 같을 확률을 계산한다.

누적 분포 함수의 성질

누적 분포 함수는 아래 네가지 조건을 만족해야 한다.

  1. limxFX(x)=0\lim_{x \to -\infty} F_X(x) = 0
  2. limxFX(x)=1\lim_{x \to \infty} F_X(x) = 1
  3. x1x2FX(x1)FX(x2)x_1 \le x_2 \Rightarrow F_X(x_1) \le F_X(x_2)
  4. limxa+FX(x)=FX(a)\lim_{x \to a^+} F_X(x) = F_X(a)

조건 1.은 직관적으로 보면 P(X)=0P(X \le -\infin) =0이어야 한다는 것을 의미하고, 함수의 관점에서 보자면 x가 음의 무한대로 가면 0으로 함수가 수렴한다는 것을 의미한다.

조건 2.는 반대로 x가 양의 무한대로 가면 1에 수렴한다는 것을 의미한다. 확률이 가질 수 있는 최대값은 1이기 때문에, P(Xx)P(X \le x)가 가질 수 있는 값도 최대 1이다.
따라서 x가 아무리 커진다고 해도 FX(x)F_X(x)의 값이 1을 넘을 수는 없다.

조건 3.은 FX(x)F_X(x)가 단조 증가 함수라는 것을 의미한다. 모든 확률은 0 이상이므로 확률이 "누적"되는 FX(x)F_X(x)의 값은 x가 커질수록 증가할 것이다.

조건 4.는 FX(x)F_X(x)모든 점에서 우연속이라는 것을 의미한다.

확률 밀도 함수와 누적 분포 함수

확률 변수 XX의 확률 밀도 함수 fX(x)f_X(x)와 누적 분포 함수 FX(x)F_X(x)는 도함수와 역도함수의 관계를 가지고 있다. 즉 다음의 관계가 성립한다.

ddxFX(x)=fX(x), FX(x)=xfX(t)dt\frac{d}{dx}F_X(x) = f_X(x), \ F_X(x) = \int_{-\infin}^x f_X(t)dt

확률 밀도 함수에서 사건 a<X<ba < X < b가 발생할 확률이 abfX(x)dx\int_a^b f_X(x)dx였던 것을 생각해보면, 누적 분포 함수와 사건의 확률을 다음과 같이 연결할 수 있다.

P(a<X<b)=abfX(x)dx=FX(b)FX(a)=P(X<b)P(X<a)P(a < X < b) = \int_a^b f_X(x)dx = F_X(b) - F_X(a) = P(X < b) - P(X < a)

0개의 댓글