확률분포를 이해하는 것은 데이터 분석에서 통계적 추정, 예측, 모델링 등 다양한 과정에서 핵심 역할을 한다. 특히 연속형 확률변수의 경우 확률 밀도 함수(PDF)와 누적 분포 함수(CDF)를 명확히 이해하는 것이 중요하다. 두 함수의 정의와 차이점을 알아보자
PDF는 확률변수가 특정 값 근처에서 나타날 상대적인 가능성을 나타낸다.
연속형 확률변수 X의 PDF 는 다음과 같은 성질을 가진다.
PDF 자체의 값은 확률이 아니다.
실제 확률은 구간 확률로 계산한다:
직관적 이해: PDF는 데이터의 분포 형태를 보여주는 곡선이다.
구분 연속형 변수 연속형 확률변수 값 연속적인 수치 연속적이면서 확률적 결과 확률분포 없음, 단순 데이터 PDF, CDF 등으로 표현 가능 예시 키, 몸무게 키를 확률분포로 모델링, 체온, 수면 시간 연속형 변수는 측정 가능한 수치, 연속형 확률변수는 그 수치가 확률적으로 결정되는 변수이다.

https://scribbleonit.blogspot.com/2018/01/probability-density-functionpdf.html
| 구분 | CDF | |
|---|---|---|
| 의미 | 확률변수가 특정 값 근처에 나타날 밀도 | 특정 값 이하로 나타날 누적 확률 |
| 값 | 확률이 아님, 밀도 | 0~1 사이의 확률 |
| 계산 | 구간 적분으로 확률 계산 | 직접 누적 확률 |
| 시각화 | 종 모양 곡선, 피크 위치와 폭 관찰 | 항상 증가하는 S자형 곡선 |
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
# 정규분포 샘플
x = np.linspace(-4, 4, 1000)
pdf = norm.pdf(x, loc=0, scale=1) # 평균 0, 표준편차 1
cdf = norm.cdf(x, loc=0, scale=1)
plt.figure(figsize=(10,5))
plt.plot(x, pdf, label='PDF')
plt.plot(x, cdf, label='CDF')
plt.title('PDF vs CDF of Standard Normal Distribution')
plt.xlabel('x')
plt.ylabel('Value')
plt.legend()
plt.show()