[확률통계] Bayes' Rule

JAEYOON SIM·2021년 8월 13일
0
post-thumbnail

지금부터는 조건부 확률의 응용으로 일종의 역문제를 생각해보려고 한다. 여기서 역문제라는 것은 간단히 말해 결과에서 원인을 찾는 문제를 말한다. 원인 X를 직접적으로 관측하고 측정할 수 없을 때, 거기서 일어난 결과 Y를 통해서 원인 X를 추측하는 것은 여러가지 측면에서 상투적인 수단일 수 있다.
공학에서는 이러한 경우의 문제들이 많이 존재한다.

  • 통신: 소음이 들어간 수신 신호 Y에서 송신 내용 X를 찾아낸다.
  • 음성 인식: 마이크로 모은 음성의 파형 데이터 Y에서 말소리 X를 찾아낸다.
  • 문자 인식: 스캐너로 읽어들인 화상 데이터 Y에서 적힌 문자 X를 찾아낸다.
  • 메일 자동 필터링: 받은 메일의 내용 Y에서 메일의 종류 X를 찾아낸다.

베이즈 통계학은 기존 통계학과의 차이가 있는데, 기존 통계학에서는 모집단을 변하지 않는 대상으로 규정하지만, 베이즈 통계학에서는 모집단을 미리 확정짓지 않는다.
베이즈 정리(Bayes' theorem / Bayes' rule)에 대해서 알아보기 이전에 몇가지 용어에 대해서 알아보려고 한다. 그러기 위해서 재미있는 예시를 통해서 살펴보려고 한다.

어떤 게임에서는 몬스터를 쓰러뜨리면 보물 상자를 얻을 수 있다. 보물 상자는 2/3 확률로 함정인데, 함정인지 아닌지는 마법으로 판정이 가능하다. 하지만 판정도 완전하지 못해 1/4 확률로 잘못된 판정 결과가 나오곤 한다. 지금 몬스터를 쓰러뜨리고 보물 상자에 마법을 걸어 함정이 아니라는 판정이 나왔다. 이 상황에서 실제로 보물 상자가 함정일 확률은 얼마일까?

자, 여기서 보물 상자가 함정인지를 확률 변수 X로 나타낼 것이다. 그리고 마법에 의한 판정 결과를 확률 변수 Y로 나타낼 것이다. 그러면 위의 문제는 다음과 같이 해석이 가능해진다.
우리는 이 상황에서 결국 구하고 싶은 것을 일반화 시키면, P(원인)과 P(결과 | 원인) 정보들을 알게 되었을 때 P(원인 | 결과)가 어떻게 되는지이다. 이러한 유형의 문제는 베이즈 정리를 통해서 쉽게 답을 구할 수 있다. 우리는 이러한 맥락에서 P(원인)을 사전 확률(prior probability), P(원인 | 결과)를 사후 확률(posterior probability) 라고 부른다.
사전 확률은 확률 실험이 시행되기 이전에 사건 발생에 대해 이미 알고 있는 사전 지식을 의미하고, 사후 확률은 어떤 사건을 인지한 후 이들이 어떤 원인에 의해서 출현한 것이라고 생각되는 조건부 확률 지식을 의미한다.
바로 베이즈 정리 공식을 통해서 풀면 답을 구할 수는 있지만, 이를 이해하는데는 부족할 수 있다. 그래서 간단하게 그림을 그려가면서 확률을 구해보고자 한다.

  1. 전체 면적은 1이다.
  2. 그중에서 2/3가 X = 함정 있음, 나머지 1/3이 X = 함정 없음이다.
  3. X = 함정 있음 중에서 1/4이 Y = 낌새 없음이고, 그것은 전체의 1/6에 해당한다.
  4. 마찬가지로 X = 함정 없음 중에서 3/4이 Y = 낌새 없음이고, 그것은 전체의 1/4에 해당한다.
  5. 이를 합치게 되면, Y = 낌새 없음은 전체의 5/12에 해당한다.
  6. 그중에서 X = 함정 있음의 비율은 5/12 중에서 1/6이므로, 2/5로 0.4가 되어 40%의 확률이 구해진다.

마법으로 함정의 낌새가 없다고 판정되어도, 오히려 40%의 확률로 함정에 걸리고 있다는 소리다. 게임을 진행하면서 섣불리 보물 상자를 건드리지 않는 편이 좋다.

이렇게 예시를 통해서 베이즈 정리에 대해서 알아보았다. 그렇다면 이를 일반화 하면 어떻게 되겠는가?
이것이 결과로부터 원인(확률)을 구하는 방법이다. 식을 암기하는 것도 중요하지만, 먼저 그림으로 생각해보면서 이해하는 것도 중요하다.

profile
평범한 공대생의 일상 (글을 잘 못 쓰는 사람이라 열심히 쓰려고 노력 중입니다^^)

0개의 댓글