푸아송 분포와 그 외 관련 분포들

Kiwoong Park·2022년 2월 8일
0

많은 작업이 주어진 어떤 비율에 따라 임의로 사건들을 발생시킨다. 유튜브의 조회수, 페북 게시글의 좋아요 수, 컴퓨터 운영 시간 동안 블루스크린이 뜨는 횟수(시간에 따른 사건), 혹은 몸에 있는 점의 개수, 논문 100줄당 오타 수(공간에 따른 사건)와 같은 예를 들 수 있다.

💡푸아송 분포

이전에 발생한 데이터를 통해, 시간 단위 혹은 공간 단위에서의 평균적인 사건의 수를 추정할 수 있다. 하지만 시간별 혹은 공간별로 사건 발생이 얼마나 다른지 알고 싶을 때가 있다.

푸아송 분포는 시간 단위 또는 공간 단위로 표본들을 수집할 때, 그 사건들의 분포를 알려준다. '1분 동안 API 서버에 도착한 POST 요청을 95%의 확률로 완벽하게 처리하는 데 필요한 용량은 얼마일까?' 같은 대기행렬 관련 질문을 처리할 때 유용하다.

푸아송 분포의 핵심 파라미터는 λ\lambda 로, 람다는 어떤 일정 시간/공간 구간 안에서 발생한 평균 사건 수를 의미한다. 푸아송 분포의 분산 역시 λ\lambda이다.

잘 알려진 기술은 대기행렬 시뮬레이션에서 푸아송 분포를 따르는 난수를 생성하는 것이다. 예를 들어 은행 업무 콜센터에서 접수 되는 문의 전화가 10분당 평균 5회면, 1시간당 문의 전화 횟루를 알려주는 식이다.

즉, 푸아송 분포는 단위 시간 혹은 단위 공간 안에서 어떤 사건이 몇 번 발생할 것인지를 표현하는 확률 분포라고 할 수 있고 상세 식은 아래와 같다.

확률변수 X가 푸아송 확률변수이고, 모수가 λ\lambda인 확률질량함수 f(x)f(x)
f(x)=eλλxx!f(x)=\cfrac{e^{-\lambda}\lambda^x}{x!} 로 기대값과 분산은 exe^x의 맥클로린 급수를 활용하여 수식을 전개하면,
ex=n=0xnn!e^x=\sum_{n=0}^{\infin}\cfrac{x^n}{n!}
E(x)=x=0xf(x)=x=0xeλλxx!=x=1λeλλx1(x1)!=y=0λeλλyy!=λE(x)=\sum_{x=0}^{\infin}xf(x) = \sum_{x=0}^{\infin}x\cfrac{e^{-\lambda}\lambda^x}{x!}= \sum_{x=1}^{\infin}\lambda\cfrac{e^{-\lambda}\lambda^{x-1}}{(x-1)!} = \sum_{y=0}^{\infin}\lambda\cfrac{e^{-\lambda}\lambda^{y}}{y!} = \lambda
로 표현할 수 있고, 분산도 같은 방식으로 구할 경우 λ\lambda 값을 얻을 수 있다.

profile
You matter, never give up

0개의 댓글