[확률통계] Continuous Probability Distributions

JAEYOON SIM·2021년 8월 14일
post-thumbnail

이산 확률 분포에서 이산은 우리가 셀 수 있는 가산의 떨어져 있는 경우에 대해서 다루었다. 대표적인 예시로는 주사위를 던질 때 나오는 숫자를 확률 변수 X라고 하면, X는 1, 2, 3, 4, 5, 6과 같이 셀 수 있는 숫자들로 이루어져있다.
이번에는 떨어져 있는 경우가 아닌 연속적으로 이어진 경우에 대해서 다루어 볼 것이고, 이러한 것들이 흩어져 있는 정도인 연속 확률 분포(continuous probability distribution)에 대해서 알아볼 것이다.

간단하게 이해를 위해서 예시를 들어보자. 확률 변수 X를 초등학생의 키라고 할 것이다. 그러면 초등학생의 키는 140, 141, 142 이렇게 이야기할 수도 있지만, 실제로 키를 잴 때는 140.2, 140.45 등과 같이 무수히 많은 경우가 존재하게 된다. 이렇게 확률 변수가 주사위 처럼 셀 수 있는 경우가 아닌, 연속 되어 있어서 도저히 셀 수가 없는 확률 변수를 가진 확률 분포를 우리는 연속 확률 분포라고 한다. 이와 비슷한 사례로 몸무게나 머리 길이 등과 같이 특정하게 셀 수 없는 경우들이 이에 해당한다.

Probability Density Function(PDF)

어떤 확률 분포에 대해서 확률 변수가 특정 값보다 작거나 같은 확률을 우리는 누적 분포 함수(cumulative distribution function)이라고 했었다. 이는 확률 질량 함수(probability mass function)를 이용해서 이산 확률 분포에서 이야기 했었다.
이번에는 연속적인 변수에 의한 확률 분포에서 특정 확률 변수 구간의 확률이 다른 구간에 비해서 상대적으로 얼마나 높은가를 나타내는 확률 밀도 함수(probability density function)에 대해서 이야기 할 것이다.
알아야 할 사실은 확률 밀도 함수는 그 값 자체가 확률이 아니고 특정 범위 내의 함수 아래의 면적이 확률에 해당한다. 그렇기에 분포 내에서 특정한 값에서의 확률은 0이다. 즉, 연속 확률 분포에서 확률은 항상 구간에 대한 확률을 이야기하고, 특정한 값에서의 확률은 0이다.
우리는 연속 확률 분포에서도 확률 밀도 함수를 이용해서 누적한 결과를 이야기할 수 있다. 그리고 이 확률 밀도 함수(PDF)와 누적 분포 함수(CDF)에는 다음과 같은 수식이 성립을 하게 된다.
식을 보면 PDF와 CDF는 서로 역관계에 있어서 CDF를 미분하면 PDF가 되고, 반대로 PDF를 적분하면 CDF가 된다.

그리고 PDF는 두가지 조건을 만족해야 한다.
요약하자면, 확률 분포 함수는 항상 양의 값을 가져야 하며, 특정 범위가 아닌 전체 범위에서의 확률 밀도 함수의 면적의 합은 1이 되어야 하고, 특정 범위 내에서의 면적은 확률 밀도 함수의 확률이 되는 것이다.

PMF-CDF, PDF-CDF

먼저 이산 확률 분포에서 확률 질량 함수와 누적 분포 함수에 대한 기본적으로 이해하기 쉬운 예시이다. 주사위를 던졌을 때 결과에 따른 확률은 전부 1/6로 같아지며, 이를 누적해서 더했을 경우에는 마지막에는 전체 확률 1이 되는 것이다.
그리고 연속 확률 분포에서 확률 밀도 함수와 누적 분포 함수에 대한 것으로 키의 분포는 140cm부터 190cm까지라고 했을 때, 이 함수의 면적이 확률의 합인 1이 되는 것이고, 이를 누적하게 되었을 경우 이산적인 경우와 마찬가지로 세로축의 범위는 0에서 1이 될 것이다. 확률 밀도 함수가 보통 종 모양을 이룰 때, 이를 누적하게 되면 S자 모양의 이상적인 모양이 된다.
평균값 165cm를 선택했을 경우 왼쪽의 분포는 50%가 되면서 이것이 CDF 함수에서 바로 확률로 이어지게 된다. 계속해서 누적했다고 하면 결국 140cm부터 190cm까지 확률의 합은 1이 될 것이다.

profile
평범한 공대생의 일상 (글을 잘 못 쓰는 사람이라 열심히 쓰려고 노력 중입니다^^)

0개의 댓글