가능도(우도)

NK590·2023년 10월 20일

확률과 가능도

가능도가 무엇인지 알아보기 전에, 먼저 확률이 무엇인지에 대해 생각해보자.

확률(Probability)은 주어진 확률분포에서 해당 관측값이 나올 수 있는 정도이다. 즉, 관측값 혹은 관측값의 구간이 확률분포 안에서 어느 비율로 존재하는지를 나타내는 값이라고 할 수 있다. 이 때의 확률분포를 $D$ 라고 하고, 그 안에서의 관측값 을 $x$ 라고 하면 다음과 같이 나타낼 수 있다.

P = P(x | D)

이 때, 연속된 확률밀도 하에서 특정한 한 관측치에 대한 확률은 확률밀도의 특성상 0이 되는데, 그렇다고 해서 그 관측치가 절대 발생할 수 없음을 의미하는 것은 아니다. 이러한 이유로 특정한 관측치가 일어날 가능성을 비교하기에는 확률은 적합하지 않은 도구임을 알 수 있다.

가능도(Likelihood)는, 확률과는 반대로 어떤 값이 관측되었을 때, 그 관측값이 어떤 확률분포로부터 나왔을 지에 대한 가능성이다. 즉, 관측값을 기반으로 확률분포를 나타내므로 관측값이 '기반이 되는' 값이라고 할 수 있다. 확률분포를 $D$ , 관측값을 $x$ 라고 하면, 가능도 $\mathcal{L}$ 은 다음과 같이 나타낼 수 있다.

\mathcal{L} = \mathcal{L}(D | x)

이 때, $D$ 와 $x$ 가 같다면 확률과 가능도는 같은 값을 가진다.

\mathcal{L}(D | x) = P(x | D)

여기서, 확률변수 $X$ 가 $X = (X_1, X_2, \cdots, X_n)$ 의 꼴로 주어져 있으며, $X_i$ 가 확률분포 $P_{i, \theta}(X_i)$ 를 가진다면 위 식은 다음과 같이 쓸 수 있다.

\mathcal{L}(D | x) = \prod_{i}P_{i, \theta}(X_i = x_i)

위에서 보았듯이 가능도도 결국은 확률로 표현할 수 있기 때문에, 이 확률의 곱을 덧셈으로, 지수를 곱셈으로 만들 수 있는 로그를 씌워서 로그 가능도(Log Likelihood)로 사용하는 경우도 많다. 로그 가능도 표현은 다음과 같다.

\log \mathcal{L}(D | x) = \sum_{i}\log P_{i, \theta}(X_i = x_i)

가능도의 예시

동전이 하나 있는데, 한쪽 면에 무게중심이 쏠려있어서 동전을 던졌을 때 앞면이 나올 확률을 $p_H = 0.2$ , 뒷면이 나올 확률을 $p_T = 0.8$ 라고 하자. 이 때, 동전을 두 번 던졌는데 두 번 다 앞면이 나왔다고 하자. 그러면 이 때의 $p_H$ 의 가능도는,

\mathcal{L}(p_H = 0.2 | HH) = P(HH | p_H = 0.2) = 0.2^2 = 0.04

이다. 이 결과는, 앞면이 두 번 나온 사실에 근거하여, $p_H$ 가 $0.2$ 라는 작은 값을 가질 가능도는 $0.04$ 로 매우 낮은 값이라고 해석할 수 있다. 반대로, $p_H = 0.8$ , $p_T = 0.2$ 라고 하면,

\mathcal{L}(p_H = 0.8 | HH) = P(HH | p_H = 0.8) = 0.8^2 = 0.64

가 되며, $p_H = 0.8$ 일 때의 가능도는 확연히 높은 값을 가진다. 이는 일단 앞면이 두 번 나왔으니, $p_H$ 의 값은 큰 값을 가질 가능성이 높다는 직관적인 추론과도 일치한다.

NK590

AI 엔지니어 (진)

이전 포스트

에라토스테네스의 체

다음 포스트

가능도(우도)

확률과 가능도

가능도의 예시

에라토스테네스의 체

최대 우도 추정

0개의 댓글