Bayes Rule (베이즈 룰)

정환우·2021년 8월 12일
0

데이터 분석

목록 보기
3/3

과제로 주어진 Sequentail Bayes를 이해하기 위해 공부하는 베이즈 룰.
Bayes Rule은 굉장히 유용한 정리이며, 머신러닝이나 통계학을 공부한다면 들어봤을법한 대단히 유명한 정리라고 한다.

이 포스팅에서는 베이즈 룰의 정의와 수식들에 대해 알아보자.

참고 포스팅 : HYUNGMINLEE'S WEBSITE - Bayes Rule

Bayes Rule?

그렇다면 먼저, 베이즈 룰은 어떤 것을 정의하는 것일까.

베이즈 정리(Bayes theorem, Bayes rule)는 이전의 경험과 현재의 증거를 토대로 어떤 사건의 확률을 추론하는 과정을 보여준다고 할 수 있다.

그러니까 현재 주어진 데이터를 과거의 경험에 근거하여 미래에 나타날 확률을 조사하는, 그런 방식이라고 이해하면 될 것 같다.

하지만 이렇게 글자로 배우면 너무 추상적이니까, 예시와 수식을 보며 이해를 해보자.

예시 ) 농어와 연어를 구분해보자.

농어와 연어가 살고있는 바다에서, 내가 잡은 물고기가 농어인지 연어인지 구분하는 문제를 생각해보자.

우리가 잡은 물고기를 분류하는 기준은 피부의 밝기이다. 농어는 피부가 어둡고, 연어는 피부가 밝기 때문이다. 고로 여기서 집중적으로 다뤄야 할 것은 피부의 밝기라는 것을 기억하고 가자.

식으로 표현하기

그렇다면 수학적 모델링으로 나타내보자.
우리에게 주어진 물고기의 밝기를 xx라고 하자. 물고기의 종류를 ww라고 하고, 그 물고기가 농어일 사건을 w=w1w = w_1, 연어일 사건을 w=w2w = w_2라고 하자.

그렇다면 물고기의 피부 밝기가 0.5라고 하면, 그 물고기가 농어일 확률을 조건부 확률로 표현해보자.

P(w=w1x=0.5)=P(w1x=0.5)P(w=w_1 |x = 0.5) = P(w_1|x=0.5)

라고 표현이 가능하다.

여기에 더 나아가서, 우리에게 모든 xx에 대해 P(w1x)P(w_1|x)P(w2x)P(w_2|x)의 값이 주어진다면, 어떤 xx가 주어지더라도 물고기를 구분할 수 있다.

P(w1x)>P(w2x)P(w_1|x) > P(w_2|x) 라면 농어, 반대의 경우라면 연어로 분류한다.

고로 이 문제는 P(wix)P(w_i|x) 만 구하면 풀 수 있다. 우리가 구해야 하는 이 확률을 Posterior(사후확률)이라고 한다.

관찰하기

우리는 아직 P(wix)P(w_i|x)는 구할 수 없는데, 계속된 관찰을 통하여 P(xwi)P(x|w_i)는 구할 수 있다. 물고기의 종류가. wiw_i일 경우 밝기가 xx일 확률을 의미한다고 해석할 수 있는데, 물고기의 밝기는 당연하게도 연속적이기 때문에 확률보단 확률 밀도가 이 경우에는 맞는 표현이다.

이렇게 관찰을 통해 얻은 확률 분포 P(xwi)P(x|w_i)Likelihood(가능도)라고 부른다.

이 그래프는 예시와는 상관없지만 예를 들어서 왼쪽이 연어, 오른쪽이 농어라고 해보자. 이 분포 그래프에서 두 그래프가 만나는 지점을 기준으로 그 값보다 작으면 연어, 크면 농어라고 생각하면 되지 않을까?

얼핏 들으면 정확하다고 생각할 수 있는데, 이 문장에는 크게 간과한 부분이 있다. 바로 이 분포에는 연어와 농어가 잡힐 확률이 반영돼 있지 않다. 극단적으로 예를 들면, 농어와 연어가 50 : 50 비율로 살고 있다면 정답이지만, 만약 농어가 잡힐 확률이 0.1이라면, xx값이 아무리 작더라도 그 물고기가 농어일 확률을 현저히 낮아진다.

그러므로 사후확률을 구하기 위해서는 관찰을 통해 가능도를 구하고, 농어와 연어가 잡힐 확률을 알아야 한다는 것을 알 수 있다.

사전 확률

위에서 언급한 것 처럼 우리는 Posterior를 구하기 위해서는 xx값과 상관없이 농어가 잡힐 확률 P(w1)P(w_1)과 연어가 잡힐 확률 P(w2)P(w_2)을 알아야 하는데, 이 값들을 Prior(사전 확률)이라고 한다.

이름 그대로 우리가 갖고 있는 사전 지식에 해당하며, 일반적으로는 주어지거나 우리가 정해주어야 하는 경우가 많다.

결론

우리가 배운 세가지 확률은 무엇인가 ?

Posterior, Likelihood, Prior 세 가지를 배웠다. 우리가 최종적으로 구해야 하는 값은 Posterior, 그 값을 구하기 위한 매우 중요한 단서이자 관찰을 통해 구할 수 있는 값은 Likelihood, 그리고 이 값을 활용하기 위해 필요한 사전 지식인 Prior이다.

여기서 고등학교 때 배운 조건부 확률 수식을 활용하면 수식으로 정의가 가능하다.

P(A,B)=P(AB)P(B)=P(BA)P(A)P(A,B) = P(A|B)P(B) = P(B|A)P(A)

3가지 등식 중에서 첫 번째 등식을 빼고 살짝 변형을 해보면,

P(AB)=P(BA)P(A)P(B)=P(BA)P(A)AP(BA)P(A)P(A|B)= {P(B|A)P(A) \over P(B)} = {P(B|A)P(A)\over\sum_AP(B|A)P(A)}

그리고 여기서 AA대신 ww, BB대신 xx를 넣으면 다음과 같다.

P(wix)=P(xwi)P(wi)jP(xwj)P(wj)P(w_i|x) = {P(x|w_i)P(w_i) \over \sum_j P(x|w_j)P(w_j)}

여기서 이 식이 뜻하는 것을 설명하자면,

좌변에 있는 P(wix)P(w_i|x) 는 우리가 구하고자 하는 Posterior이고, 우변의 분자인 P(xwi)P(wi)P(x|w_i)P(w_i)LikelihoodPrior의 곱이다.
우변의 분모는 보통 Evidence라고 부르는데, 이 또한 사전확률과 가능성을 통해 구할 수 있다고 한다.

이 식을 Bayes' Rule 또는 Bayesian Equation 이라고 부른다.

profile
Hongik CE

0개의 댓글