베이즈 룰은 사전 정보들과 관측값들이 주어졌을 때, 사후 확률을 계산하는 방법을 말합니다.
간단하게는 조건부 확률을 뒤집는 방법을 말합니다.
예를 들어, COVID-19 검사기의 신뢰도를 얻어야 하는 상황이라고 해봅시다.
- COVID-19의 발병확률 (사전 정보)
- COVID-19 환자들에 대해 검사기를 시행해봤을 때의 결과 확률(관측값)
- 위의 값들을 토대로 검사기를 시행했을 때, 실제로 COVID-19 감염일 확률 (사후 확률)
COVID-19 감염 사건을 A, 검사기 결과 사건을 B라고 했을 때, 아래의 식이 bayes rule입니다.
만약 우리가 COVID-19 검사기를 발명했다고 하면, 당연히 초기에는 그 신뢰도를 모릅니다. 하지만, COVID-19 감염 확률과 실제 시행했을 때의 확률값을 알게된다면 그에 반대되는 조건부 확률을 구할 수 있다는 것입니다.
또한, 이렇게 정보들(실제 시행했을 때의 확률값)이 추가됨에 따라 신뢰도를 업데이트할 수 있으며, 이를 bayesian inference 혹은 posterior inference 혹은 probabilistic inference라고 합니다.
유명한 Monty Hall 예제를 통해서 이러한 bayesian inference를 살펴보겠습니다.
문을 바꾸는 것이 유리할까요? 혹은 유지하는 것이 유리할까요?
사전 확률 (Hi)
처음에 주어진 정보로는, 자동차가 각각의 문 뒤에 있을 확률이 동일합니다.
P(H1) = P(H2) = P(H3) = 1/3
관측값
Y를 진행자가 문을 여는 사건이라고 하면 각각의 조건부 확률은 아래와 같습니다.
P(Y=3 | H1) = 1/2 (1번에 자동차 있으므로 2번 혹은 3번 가능)
P(Y=3 | H2) = 1 (2번에 자동차 있으므로 무조건 3번 열어야 함)
P(Y=3 | H3) = 0 (3번에 자동차 있으므로 무조건 2번 열어야 함)
여기서 미리 P(Y=3)에 대한 확률을 구하고 가겠습니다.
P(Y=3) = P(Y=3 | H1)P(H1) + P(Y=3 | H2)P(H2) + P(Y=3 | H3)*P(H3) = 1/2
P(H1 | Y=3) = 1/3
P(H2 | Y=3) = 2/3
P(H3 | Y=3) = 0
https://towardsdatascience.com/what-is-bayes-rule-bb6598d8a2fd