2.12 푸아송 분포와 그 외 관련 분포들
1. 용어 정리
- 람다(lambda): 단위 시간이나 단위 면적당 사건이 발생하는 비율
- 푸아송 분포(Poisson distribution): 표집된 단위 시간 혹은 단위 공간에서 발생한 사건의 도수분포
- 지수분포(exponential distribution): 한 사건에서 그 다음 사건까지의 시간이나 거리에 대한 도수분포
- 베이불 분포(Weibull distribution): 사건 발생률이 시간에 따라 변화하는, 지수 분포의 일반화된 버전
2.12.1 푸아송 분포
1. 활용 범위
- 시간 단위 또는 공간 단위로 표본을 수집할 때, 그 사건들의 분포
- ex) 5초 동안 서버에 도착한 인터넷 트래픽을 95%의 확률로 완벽하게 처리하는 데 필요한 용량은 얼마일까?
2. 푸아송 분포 수식
- 핵심 파라미터 = λ (lambda)
- 분산 = λ (lambda)
- λ (lambda) = 어떤 일정 시간&공간의 구간 안에서 발생한 평균 사건 수
[출처: https://rfriend.tistory.com]
3. 실습 예제
- 코드
예를 들어 고객 서비스 센터에 1분당 평균 2회로 문의 전화가 접수된다면, 100분당 문의 전화 횟수
import scipy.stats as stats
stats.poisson.rvs(2, size = 100)
- 결과
2.12.2 지수분포
1. 활용 범위
- 사건과 사건 간의 시간 분포 모델링
- ex) 웹사이트 방문이 일어난 시간 or 통게이트에 자동차가 도착하는 시간 사이
2. 주의사항
- 푸아송이나 지수분포에 대한 시뮬레이션 연구에서 핵심은 λ (lambda)가 해당 기간 동안 일정하게 유지된다는 가정
3. 실습 예제
- 코드
분당 평균적으로 0.2회 서비스 문의 전화가 걸려오는 경우, 100분 동안의 서비스 센터 문의 전화를 시뮬레이션
import scipy.stats as stats
stats.expon.rvs(scale = 1/0.2, size = 100)
stats.expon.rvs(scale = 5, size = 100)
- 결과
## 2.12.3 고장률 추정
2.12.4 베이불 분포
1. 베이불 분포의 필요성
- 사건 발생률은 시간에 따라 일정하지 않다.
- 그러므로 사건 발생률이 시간에 따라 지속적으로 변하면, 지수 또는 푸아송 분포는 유용하지 않다.
- 사건 발생 기간을 인수로 가지는 베이불 분포를 사용해야한다.
2. 베이불 분포
- 시간에 따라 변화하는 사건 발생률 모델링
- 지수 분포를 확장한 것
- 파라미터 β(베타) = 발생률 지정
- 파라미터 η(에타) = 발생 특성 수명 = 척도 변수
3. 실습 예제
- 코드
1.5의 형상 파라미터와 5,000의 특성 수명을 갖는 베이불 분포에서 난수 100개(수명) 생성
import scipy.stats as stats
stats.weibull_min.rvs(1.5, scale = 5000, size = 100)
- 결과
피터 브루스, 앤드루 브루스의 <데이터 과학을 위한 통계(2판): 데이터 분석에서 머신러닝까지 50가지 핵심 개념> 을 읽고 정리한 내용입니다.
정리를 너무 잘 하셔서 상대적 박탈감이 느껴지네요. ㅡㅡ