이상화 교수님의 확률 및 통계 5강 '이산 확률 변수와 연속 확률 변수' 강의를 듣고 간단하게 내용을 정리해보도록 하겠습니다.
연속 확률 변수는 왜 특정 실수값의 확률을 정의할 수 없을까?
0과 1사이의 '모든' 실수값에서 '0.5'를 뽑을 확률을 정의해보자. 0과 1사이에는 무수히 많은 숫자들이 있을 것이고. 그 중에서 0.5라는 숫자를 뽑을 확률을 실질적으로는 '0'일 것이다.
∞1=0
그렇다면 연속 확률 변수는 '확률'을 어떻게 정의해야 할까?
'특정한' 값이 아니라 '아주 작은 구간'에서 정의할 수 있다. F(x)에 아주 작은 값을 더한 값을 구한 후(F(x+Δx)) , 이를 단위 구간으로 나누어 보자.
Δ→0limΔxP(x<X<x+Δx)=Δ→0limΔxF(x+Δx)−F(x)=F′(x)
이를 통해 다음과 같은 사실을 알 수 있다.
-
연속 확률 변수에서 특정한 값의 '확률'을 정의할 수는 없지만 '밀도(density)'는 정의할 수 있다(밀도는 단위 길이당 특정 확률값을 표현한 것)
-
밀도는 누적 분포 함수를 '미분' 하면 구할 수 있다. 즉 아래와 같은 식이 성립한다.
F′(x)F(x)=f(x)=∫f(x)dx
-
f(x)는 확률 밀도 함수(probability density function, PDF)라고 한다.
확률 밀도 함수(PDF)가 되기 위해서는 다음의 두 조건을 반드시 만족해야 한다.
(1) 0≤f(x), (그러나 f(x)≤1일 필요는 없다. 확률이 아니라 밀도이기 때문).
(2) ∫−∞∞f(x)=1
헷갈릴만한 개념들을 정리 해보자.
- PMF의 경우, 특정 확률 변수에 상응하는 값이 '확률'임
- PDF의 경우, 특정 확률 변수에 상응하는 값이 '확률'이 아니라 '밀도'임
- 누적 분포 함수(CDF)는 특정 확률 변수에 해당하는 값이 '확률'임. 이는 PMF의 CDF나 PDF의 CDF 모두에 해당 함