해당 내용은 아래 강좌를 정리한 내용입니다.
https://www.edwith.org/ai152
학습목표
포아송분포와 포아송 근사를 이해하고, 문제풀이에 적용할 수 있다.
핵심 키워드
확률변수와 확률분포에 대해 이해하기 쉽게 비유하자면 확률분포는 집의 설계도이고 확률변수는 집임.
확률분포 하나를 따르는 여러 개의 확률변수를 만들 수 있음.
포아송분포의 PMF
는 rate를 나타내는 모수 이며 0보다 큼.
포아송분포의 Expactation
테일러 급수에 의해 정답이 이거임.
포아송분포의 쓰임 : 굉장히 여러 번의 시행을 하지만 성공의 확률은 매우 낮을 때, 성공 횟수 세기
ex) 한 시간 동안 오는 이메일의 갯수, 초콜릿 칩 안에 든 칩의 개수, 특정 지역에서의 1년간 지진 발생 수
1시간동안 이메일은 엄청 많이 오감 그러나 나에게 이메일을 쓰는 사람은 극히 적음.
지진 일어날 확률은 적지만 1년 동안이니 몇 번 있을 수도 있음.
실제 위의 예시들은 포아송 분포를 따를 수도 있는 후보들임.
그러나 포아송 분포에는 k가 무한대까지 가능한데 현실에서는 상한이 있음. 예를 들어 초콜릿 칩의 개수가 1000조개가 되어 쿠키보다 클 수는 없음.
어떤 큰 숫자 n에 대하여 의 사건들이 각각 라는 낮은 확률로 발생하고,
각 사건은 독립(이거나 weakly dependent)일 때,
발생하는 사건(A**j)의 수는 Pois(λ)의 분포를 따른다.
따라서 이와 같은 결과가 성립함.
이항 분포와 포아송 분포는 굉장히 유사한 측면을 가지는데 포아송 분포가 더 일반적임. 왜냐하면 각 사건이 약한 독립성을 가져도 되며, 각 사건이 일어날 확률이 약간 달라도 됨.
이항분포에서 n이 무한으로 커지고 p가 같은 속도로 작아져 np = lambda가 나올 때 이항분포의 확률질량함수는 포아송 분포의 확률질량함수로 수렴함.
→ 이것이 의미하는 바는 n이 크고 p가 작은 경우 포아송 분포를 사용할 수 있다는 것임
비가 내릴 때 다음과 같은 사각형 영역에 빗방울이 얼마나 떨어질 지 예측하고 싶다고 하자. 이때 각 사각형을 잘게 나누어 계산해볼 수 있을 것이다. 각 사각형에 빗방울이 떨어지는 사건은 이항분포이고 서로 독립이라고 할 수도 있다. 따라서 이항분포로 계산하면 되는데 이항분포의 factorial 계산 때문에 힘들다. 이럴 경우 포아송 분포를 사용한다.
n이 적당히 클 때 n명의 사람이 있는데 3명의 생일이 같은 확률?
기존 방식으로 풀면 계산이 너무 어려움. 이럴 경우 포아송 분포 근사해야함.
nC3 만큼의 쌍이 있고 세 명이 같을 확률 p는 1/365^2 이므로 포아송 분포에 적합해보임.
X는 세 명이 같은 횟수에 대한 확률변수 라고 하자.