이 시리즈는 포항공과대학교 옥정슬 교수님의 기계학습(CSED515) 수업과, [Probabilistic Machine Learning: An Introduction], [Probabilistic Machine Learning: Advanced Topics], [Pattern Recognition and Machine Learning] 등을 참고로 하여 작성된 글입니다.

확률에 관한 관점

확률을 바라보는 관점에는 크게 두 가지가 있습니다. 하나는 빈도주의적 관점(Frequentist interpretation), 나머지 하나는 베이지안적 관점(Bayesian interpretation)입니다. 가장 모델링 하기 쉬운 동전 뒤집기(coin flip)를 예시로 들어보겠습니다.

Frequentist - frequencies of events

빈도주의적 관점에서는 확률을 어떤 사건이 얼마나 자주 발생하는지로 정의합니다. 예를 들어 fair coin(앞, 뒷면이 나올 확률이 50%로 같은 coin을 말합니다.)을 1,000번 던졌다고 가정해보겠습니다. 우리는 앞면이 대략 0.5의 비율로, 즉 500번에 근접할 것임을 관찰할 수 있습니다. 따라서 이런 빈도주의적 해석에서는 coin의 앞면이 나올 확률이 50%이고, 그 시행 횟수가 무한해질 때 큰 수의 법칙에 따라 0.5로 수렴함을 보장할 수 있습니다. 

Bayesian - uncertainty about something

반면, 베이지안적 관점에서는 확률을 특정 사건이 발생할 가능성에 대한 주관적인 믿음으로 봅니다. 여기서는 몇 가지 용어가 등장합니다. 

먼저 사전 확률(Prior probability)입니다. 사전 확률은 관찰 데이터를 얻기 전에 특정 사건에 대해 가지고 있는 초기 믿음을 나타냅니다. 예를 들어, 동전이 앞면이 나올 확률을 50%로 설정하는 것은 사전 확률에 해당합니다. 우리의 사전적인 믿음을 인코딩한 것으로 볼 수 있습니다.

다음으로 우도(Likelihood)입니다. 우도라는 단어는 잘 입에 와닿지 않아서 앞으로는 likelihood를 많이 쓰지 않을까 싶습니다. 예를 들어, 동전을 10번 던져 앞면이 7번 나왔을 때, 이 결과가 동전이 공정하다는 가설 하에서 얼마나 가능성이 높은지 계산하는 것이 likelihood입니다.

다음으로는 사후 확률(Posterior probability)입니다. 사후 확률은 관찰 데이터를 바탕으로 사전 확률에 이를 적절히 반영한 확률을 의미합니다. 자세한 수식은 이후 본격적으로 다뤄보겠습니다.

베이지안의 장점은 빈도주의적인 접근을 할 수 없는 상황에서 불확실성을 모델링할 수 있다는 것에 있습니다. 북극이 녹는 상황을 예시로 들어보겠습니다. 북극이 녹는다는 사건은 일어나거나, 일어나지 않거나 둘 중 하나입니다. 일반적으로 생각했을 때 여러 번 일어나기 어렵습니다. 이 경우, 우리는 북극이 녹을 확률을 베이지안적인 접근을 통해 모델링할 수 있습니다. 빈도주의적 접근에서는 녹거나, 녹지 않거나 하는 것을 수없이 관찰해서 확률을 모델링 해야하지만, 실질적으로 그런 것이 어렵기 때문에 베이지안적 접근을 통해 모델링할 수 있다는 것입니다. 

Probability as an extension of logic

사실 고등학교에서 배웠던 확률 논리를 조금 확장시킬 수 있습니다. 엄밀한 정의에 앞서서 어떤 조건을 만족할 경우 확률로 해석할 수 있는지, 그리고 이를 조합해서 어떤 재미난 결과를 만들어낼 수 있는지를 알아보겠습니다.

Probability of an event

어떤 사건(event) AA가 있다고 해봅시다. AA는 예를 들어 '커피를 마신다', '내일 커피를 마실 것이다' 등이 될 수 있을 것입니다. 그러면 커피를 마실 확률은 다음과 같이 쓸 수 있습니다.

P(A)P(A)

이때 P(A)P(A)가 가질 수 있는 값은 00에서 11사이의 값입니다. 그리고 그것의 여사건을 A\overline{A}라 할 때, 즉 커피를 마시지 않을 확률은 다음과 같이 쓸 수 있습니다.

P(A)=1P(A)P(\overline{A}) = 1 - P(A)

Probability of a conjunction of two events

이제 events를 두 개로 늘려보겠습니다. AABB라는 events가 있고, 각각의 확률을 P(A)P(A), P(B)P(B)라 할 때, 두 events가 모두 일어날 확률은 다음과 같이 쓸 수 있습니다.

P(A,B)P(A, B)

그리고 만약 A와 B가 독립이라면(독립에 대한 개념은 다시 엄밀하게 정의되어야 합니다. 그냥 개념적으로 독립이라는 용어가 있음을 알아주시면 됩니다.) joint distribution은 다음과 같이 작성됩니다.

P(A,B)=P(A)P(B)P(A, B) = P(A)P(B)

이는 그 역도 성립하며, 즉 동치입니다. 

예를 들어보겠습니다. 어떤 표본 공간(Sample space)이 X={1,2,3,4}X = \{1, 2, 3, 4\}와 같이 있고, 사건 AAX{1,2}X \in \{1, 2\}에 해당하며, 사건 BBX{3}X \in \{3\}에 해당할 때, P(A,B)=P(A)P(B)=12×14P(A, B) = P(A)P(B) = \frac{1}{2} \times \frac{1}{4}입니다.

Probability of a union of two events

두 사건 AABB의 합집합(union)은 AA 또는 BB 둘 중 하나 이상이 발생하는 사건을 의미합니다. 합집합의 확률을 계산하는 방법을 알아보겠습니다. 이는 다음과 같이 정의됩니다.

P(AB)=P(A)+P(B)P(AB)P(A \cup B) = P(A) + P(B) - P(A \cap B)

여기서 만약 두 사건이 독립이라면 다음과 같이 쓸 수 있습니다.

P(AB)=P(A)+P(B)P(A \cup B) = P(A) + P(B)

Conditional probability of on event given another

이번에는 한 사건이 주어졌을 때 다른 사건이 발생할 조건부 확률(Conditional probability)에 대해 알아보겠습니다. 조건부 확률은 사건 B가 발생했다는 정보가 주어졌을 때 사건 A가 발생할 확률을 의미합니다. 이를 수식으로 표현하면 다음과 같습니다.

P(AB)P(A \mid B)

이때, 조건부 확률은 다음과 같이 계산할 수 있습니다.

P(AB)=P(AB)P(B)P(A \mid B) = \frac{P(A \cap B)}{P(B)}

여기서 P(AB)P(A \cap B)는 사건 A와 사건 B가 동시에 발생할 확률을 의미하며, P(B)P(B)는 사건 B가 발생할 확률입니다. 조건부 확률의 정의는 다음과 같습니다.

P(AB)=P(AB)P(B)P(A \mid B) = \frac{P(A \cap B)}{P(B)}

다음은 Random variable과 Bayes' theorem, Univariate distribution에 대해 다뤄보겠습니다.

1개의 댓글

comment-user-thumbnail
2024년 12월 29일

잘 봤습니다! 좋은 포스트 감사합니다:)

답글 달기