푸아송 분포와 그 외 관련 분포들

정다영·2022년 8월 11일
1

2.12 푸아송 분포와 그 외 관련 분포들


1. 용어 정리

  • 람다(lambda): 단위 시간이나 단위 면적당 사건이 발생하는 비율
  • 푸아송 분포(Poisson distribution): 표집된 단위 시간 혹은 단위 공간에서 발생한 사건의 도수분포
  • 지수분포(exponential distribution): 한 사건에서 그 다음 사건까지의 시간이나 거리에 대한 도수분포
  • 베이불 분포(Weibull distribution): 사건 발생률이 시간에 따라 변화하는, 지수 분포의 일반화된 버전


2.12.1 푸아송 분포


1. 활용 범위

  • 시간 단위 또는 공간 단위로 표본을 수집할 때, 그 사건들의 분포
  • ex) 5초 동안 서버에 도착한 인터넷 트래픽을 95%의 확률로 완벽하게 처리하는 데 필요한 용량은 얼마일까?

2. 푸아송 분포 수식

  • 핵심 파라미터 = λ (lambda)
  • 분산 = λ (lambda)
  • λ (lambda) = 어떤 일정 시간&공간의 구간 안에서 발생한 평균 사건 수


[출처: https://rfriend.tistory.com]


3. 실습 예제

  • 코드
    예를 들어 고객 서비스 센터에 1분당 평균 2회로 문의 전화가 접수된다면, 100분당 문의 전화 횟수
import scipy.stats as stats

stats.poisson.rvs(2, size = 100)
  • 결과

2.12.2 지수분포


1. 활용 범위

  • 사건과 사건 간의 시간 분포 모델링
  • ex) 웹사이트 방문이 일어난 시간 or 통게이트에 자동차가 도착하는 시간 사이

2. 주의사항

  • 푸아송이나 지수분포에 대한 시뮬레이션 연구에서 핵심은 λ (lambda)가 해당 기간 동안 일정하게 유지된다는 가정

3. 실습 예제

  • 코드
    분당 평균적으로 0.2회 서비스 문의 전화가 걸려오는 경우, 100분 동안의 서비스 센터 문의 전화를 시뮬레이션
import scipy.stats as stats

# 밑에 두 개 동일 코드
stats.expon.rvs(scale = 1/0.2, size = 100)
stats.expon.rvs(scale = 5, size = 100)
  • 결과

## 2.12.3 고장률 추정


2.12.4 베이불 분포

1. 베이불 분포의 필요성

  • 사건 발생률은 시간에 따라 일정하지 않다.
  • 그러므로 사건 발생률이 시간에 따라 지속적으로 변하면, 지수 또는 푸아송 분포는 유용하지 않다.
  • 사건 발생 기간을 인수로 가지는 베이불 분포를 사용해야한다.

2. 베이불 분포

  • 시간에 따라 변화하는 사건 발생률 모델링
  • 지수 분포를 확장한 것
  • 파라미터 β(베타) = 발생률 지정
  • 파라미터 η(에타) = 발생 특성 수명 = 척도 변수

3. 실습 예제

  • 코드
    1.5의 형상 파라미터와 5,000의 특성 수명을 갖는 베이불 분포에서 난수 100개(수명) 생성
import scipy.stats as stats

stats.weibull_min.rvs(1.5, scale = 5000, size = 100)
  • 결과

피터 브루스, 앤드루 브루스의 <데이터 과학을 위한 통계(2판): 데이터 분석에서 머신러닝까지 50가지 핵심 개념> 을 읽고 정리한 내용입니다.

profile
My_Spielraum

1개의 댓글

comment-user-thumbnail
2022년 8월 11일

정리를 너무 잘 하셔서 상대적 박탈감이 느껴지네요. ㅡㅡ

답글 달기