Bayes theorem

dj_·2024년 9월 10일
0

Bayes theorum, Bayes rule

  • 베이즈 룰은 사전 정보들과 관측값들이 주어졌을 때, 사후 확률을 계산하는 방법을 말합니다.

  • 간단하게는 조건부 확률을 뒤집는 방법을 말합니다.

  • 예를 들어, COVID-19 검사기의 신뢰도를 얻어야 하는 상황이라고 해봅시다.
    - COVID-19의 발병확률 (사전 정보)
    - COVID-19 환자들에 대해 검사기를 시행해봤을 때의 결과 확률(관측값)
    - 위의 값들을 토대로 검사기를 시행했을 때, 실제로 COVID-19 감염일 확률 (사후 확률)

  • COVID-19 감염 사건을 A, 검사기 결과 사건을 B라고 했을 때, 아래의 식이 bayes rule입니다.

  • 만약 우리가 COVID-19 검사기를 발명했다고 하면, 당연히 초기에는 그 신뢰도를 모릅니다. 하지만, COVID-19 감염 확률과 실제 시행했을 때의 확률값을 알게된다면 그에 반대되는 조건부 확률을 구할 수 있다는 것입니다.

  • 또한, 이렇게 정보들(실제 시행했을 때의 확률값)이 추가됨에 따라 신뢰도를 업데이트할 수 있으며, 이를 bayesian inference 혹은 posterior inference 혹은 probabilistic inference라고 합니다.

  • 유명한 Monty Hall 예제를 통해서 이러한 bayesian inference를 살펴보겠습니다.

Monty Hall 문제

  • 문제 설명
  1. 세 개의 문이 있습니다. M1, M2, M3
  2. 한 개의 문 뒤에는 자동차가 있고, 나머지 두 개의 문 뒤에는 염소가 있습니다.
  3. 참가자는 먼저 문 하나를 선택합니다.
  4. 진행자는 참가자가 선택하지 않은 두 개의 문 중 염소가 있는 문 하나를 열고 염소를 보여줍니다.
  5. 이때 참가자는 처음 선택한 문을 유지할 것인지, 아니면 나머지 문으로 바꿀 것인지 선택할 수 있습니다.

    문을 바꾸는 것이 유리할까요? 혹은 유지하는 것이 유리할까요?

  • 직관적으로는 그냥 50:50으로 동일해보일 수 있지만, 베이즈 정리를 통해 추론해보면 다릅니다.
  • 먼저 참가자는 1번 문을 고르고, 진행자는 3번 문을 보여줬다고 가정해보고 문을 바꿀지 말지의 확률을 알아보겠습니다.
  1. 사전 확률 (Hi)
    처음에 주어진 정보로는, 자동차가 각각의 문 뒤에 있을 확률이 동일합니다.

    P(H1) = P(H2) = P(H3) = 1/3

  2. 관측값

  • Y를 진행자가 문을 여는 사건이라고 하면 각각의 조건부 확률은 아래와 같습니다.
    P(Y=3 | H1) = 1/2 (1번에 자동차 있으므로 2번 혹은 3번 가능)
    P(Y=3 | H2) = 1 (2번에 자동차 있으므로 무조건 3번 열어야 함)
    P(Y=3 | H3) = 0 (3번에 자동차 있으므로 무조건 2번 열어야 함)

  • 여기서 미리 P(Y=3)에 대한 확률을 구하고 가겠습니다.
    P(Y=3) = P(Y=3 | H1)P(H1) + P(Y=3 | H2)P(H2) + P(Y=3 | H3)*P(H3) = 1/2

  1. 사후 확률 계산
  • 이제 베이즈 정리를 사용해서 진행자가 3번 문을 열었을 때, 각각의 문에 자동차가 있을 확률을 계산합니다.

  • 위에서 계산한 값들을 대입해서 구해보면

    P(H1 | Y=3) = 1/3
    P(H2 | Y=3) = 2/3
    P(H3 | Y=3) = 0

  • 따라서 고른 문을 바꾸는 것이 2배나 더 유리합니다.
  • 이런 방식으로 bayes rule을 이용해 사전 확률 및 가정에 정보들이 추가된 후, 사후 확률을 업데이트하는 과정을 bayesian inference라고 합니다.

Reference

https://towardsdatascience.com/what-is-bayes-rule-bb6598d8a2fd

0개의 댓글