PMF, PDF, CDF 정리

이세현·2024년 12월 22일
0

이산형 확률 변수와 연속형 확률 변수의 정의와 차이

1. 이산형 확률 변수 (Discrete Random Variable)

정의

이산형 확률 변수는 특정 값들이 분리되어 있는 경우를 말하며, 셀 수 있는 유한 개 또는 무한 개의 값을 가질 수 있습니다.

  • 예를 들어, 주사위를 굴려 나오는 값 ( X )는 1, 2, 3, 4, 5, 6과 같은 개별적인 값으로 구성되므로 이산형 확률 변수입니다.

특징

  • 값이 정확히 구분됨 (분리된 값만 가능).
  • ( P(X = x) )로 특정 값의 확률을 직접 계산.
  • 확률 질량 함수(PMF)로 표현.

예시

  • 고객 수: 하루 동안 콜센터에 걸려온 전화의 수 ( X )는 0, 1, 2, ... 등의 값만 가질 수 있습니다.
  • 주사위: 주사위를 한 번 던졌을 때의 결과 ( X )는 ( {1, 2, 3, 4, 5, 6} ).

2. 연속형 확률 변수 (Continuous Random Variable)

정의

연속형 확률 변수는 특정 범위 내에서 무한히 많은 값을 가질 수 있으며, 값이 연속적입니다.

  • 예를 들어, 사람의 키 ( X )는 160.1cm, 160.12cm, 160.123cm와 같이 정밀도가 계속 증가할 수 있습니다.

특징

  • 특정 값에서의 확률은 항상 0이며, 구간의 확률로 계산.
  • 확률 밀도 함수(PDF)로 표현.
  • ( P(a \leq X \leq b) ) = PDF의 적분 값으로 계산.

예시

  • : 성인의 키 ( X )는 150cm ~ 200cm 사이의 모든 실수 값.
  • 온도: 하루 최고 기온 ( X )는 ( -10.5^\circ C ), ( 20.75^\circ C ) 등 연속적 실수 값.

3. 이산형 vs 연속형 비교표

구분이산형 확률 변수연속형 확률 변수
값의 특징분리된 값 (정수형, 셀 수 있음)연속된 값 (무한히 많은 실수 값 가능)
확률 계산 방법특정 값의 확률 ( P(X = x) ) 직접 계산구간 확률 ( P(a \leq X \leq b) ) = 적분값으로 계산
표현 방법확률 질량 함수(PMF)확률 밀도 함수(PDF)
그래프 형태막대 그래프연속 곡선
예시주사위 결과, 고객 수, 판매된 상품 개수키, 체중, 온도, 시간

4. 현업 활용 예시

이산형 확률 변수

  • 주문 수량 분석
    하루 동안 온라인 쇼핑몰에서 발생한 주문 수 ( X )는 이산형 확률 변수입니다.
    • 데이터: ( {10, 20, 15, 18, 22, ...} )
    • 활용: 특정 주문 수량 이상 발생할 확률 계산.

연속형 확률 변수

  • 제조업 품질 관리
    부품의 크기 ( X )는 연속형 확률 변수입니다.
    • 데이터: ( {10.01, 10.15, 9.98, 10.03, ...} )
    • 활용: 특정 크기 범위에 들어올 확률 계산 (( P(9.9 \leq X \leq 10.1) )).

PMF, PDF, CDF의 개념과 차이점

PMF, PDF, CDF 비교표

구분PMF (Probability Mass Function)PDF (Probability Density Function)CDF (Cumulative Distribution Function)
정의이산형 확률 변수에서 특정 값 ( X = x )일 확률연속형 확률 변수에서 특정 값 근처의 확률 밀도 ( f(x) )확률 변수 ( X )가 특정 값 이하 ( P(X \leq x) )일 확률의 누적 값
적용 대상이산 확률 분포 (예: 베르누이, 포아송, 기하 분포)연속 확률 분포 (예: 정규, 균등, 지수 분포)이산/연속 확률 분포 모두 적용 가능
범위( P(X = x) ), 0 이상 1 이하의 값특정 값의 ( f(x) )는 0 이상, 적분 값은 10에서 1 사이
확률 계산 방법특정 값의 확률 자체를 사용구간 내 확률은 PDF를 적분 ( P(a \leq X \leq b) = \int_a^b f(x) dx )구간 확률은 ( F(b) - F(a) )로 계산 가능
특징확률 질량 함수: 특정 값의 확률을 직접 표현확률 밀도 함수: 점에서의 값은 의미 없고 구간으로 해석단조 증가 함수로 누적된 확률을 제공
시각화특정 값마다 막대 그래프로 표현 가능연속적인 곡선 그래프로 표현 가능누적된 곡선으로 시각화 가능
예시 (현업)하루에 주문이 5건일 확률 계산 (( P(X=5) ))키가 170cm 근처일 확률 밀도 (( f(x=170) ))하루 주문이 5건 이하일 누적 확률 (( P(X \leq 5) ))

PMF, PDF, CDF의 현업 활용 사례

1. 확률 질량 함수: PMF (이산 분포에서 특정 값의 확률)

  • 현업 사례: 콜센터에서 특정 시간대에 고객이 3명 전화를 걸 확률
    • 사용 분포: 포아송 분포 ( P(X = 3) = \text{poisson.pmf}(3, \lambda=5) )
    • 결과 해석: 결과값이 0.14라면, 14% 확률로 특정 시간대에 3명이 전화를 걸 가능성이 있음.
    • 의사결정: 이를 기반으로 시간대별 상담원 수를 조정.

2. 확률 밀도 함수: PDF (연속 분포에서 특정 값 근처 확률 밀도)

  • 현업 사례: 제조업에서 부품 크기가 평균 10cm, 표준편차 0.2cm인 제품이 특정 크기 주변일 확률 분석
    • 사용 분포: 정규 분포
    • 특정 구간 ( P(9.8 \leq X \leq 10.2) = \int_{9.8}^{10.2} f(x) dx ) 계산
    • 결과 해석: 제품 크기가 해당 구간 내에 들어올 확률은 약 68%.
    • 의사결정: 제품 크기 기준을 9.8~10.2cm로 설정.

3. 누적 분포 함수: CDF (누적된 확률로 구간 계산)

  • 현업 사례: 물류센터에서 배송 시간이 평균 2일, 표준편차 0.5일인 경우, 3일 이하로 배송될 확률 계산
    • 사용 분포: 정규 분포 ( P(X \leq 3) = \text{norm.cdf}\left(\frac{3-2}{0.5}\right) )
    • 결과 해석: 3일 이하로 배송될 확률이 약 97.7%.
    • 의사결정: 배송 목표를 3일 이내로 설정 가능.

PMF, PDF, CDF 간의 관계

  • PMF: 이산형에서 특정 값의 확률 (막대 그래프)
  • PDF: 연속형에서 특정 구간 확률의 밀도 (곡선 그래프)
  • CDF: 이산/연속형 모두 특정 값 이하 확률 누적 (누적 곡선)

그래프 비교 예시

분포PMF (막대)PDF (곡선)CDF (누적 곡선)
포아송 분포각 주문량별 확률(해당 없음: 연속 분포가 아니므로 PDF가 정의되지 않음)하루에 특정 주문량 이하로 처리될 확률의 누적 곡선
정규 분포(해당 없음: 이산 분포가 아니므로 PMF가 정의되지 않음)특정 키 근처의 밀도 곡선특정 키 이하일 확률의 누적 곡선

이처럼 세 가지 개념을 구분하여 사용하면 데이터를 더 깊이 이해하고, 의사결정을 위한 유용한 정보를 도출할 수 있습니다.

profile
pglover_12

0개의 댓글