8. 베이즈 통계학

유승우·2022년 5월 4일

조건부확률

P(A\cap B) = P(B)P(A|B)

베이즈 정리

P(B|A) =\frac{P(A\cap B)}{P(A)} = \frac{P(B)P(A|B)}{P(A)}

베이즈 정리 : 예제

P(\theta|D) = P(\theta)\frac{P(D|\theta)}{P(D)}

문제.

COVID-99의 발병률이 10%로 알려져 있다. COVID-99에 실제로 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오검진될 확률이 1%라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99에 감염되었을 확률은?

$P(\theta)$ = 0.1 (사전확률)

$P(D|\theta)$ = 0.99 (가능도)

$P(D|\theta')$ = 0.01 (가능도)

$P(D) = \sum_{\theta}P(D|\theta)P(\theta)$ $=$ $0.99 \times 0.1 + 0.01 \times 0.9 = 0.108$ (evidence)

따라서, $P(\theta|D)$ $= 0.1 \times \frac{0.99}{0.108} \approx 0.916$

Evidence = $P(D) = \sum_{\theta}P(D|\theta)P(\theta)$ $= 0.99 \times 0.1 + 0.1 \times 0.9 = 0.189$

$P(\theta|D)$ $= 0.1 \times \frac{0.99}{0.189} \approx 0.524$

베이즈 정리를 통한 정보 갱신

$P(\theta|D)$ $= 0.1 \times \frac{0.99}{0.189} \approx 0.524$ = $P(\theta)$ (사전확률)

$P(D^*) = \sum_{\theta}P(D|\theta)P(\theta)$ $=$ $0.99 \times 0.524 + 0.01 \times 0.476 = 0.566$ (evidence)

$P(\theta|D)$ $= 0.524 \times \frac{0.99}{0.566} \approx 0.917$

조건부확률 → 인과관계

ex ) T를 ‘키’라고 하고 R을 ‘지능 지수’라 할 때, 키가 클 수록 지능이 높아진다는 효과가 나올 수 있는데, 이 효과는 열량과 나이와 같은 Z의 효과를 제거하지 않았기에 나타난 것이다.

인과관계 추론 : 예제

문제. 치료법 a와 b 중 어떤 것이 더 나은가?

P^a(R) = \frac{81}{87} \times \frac{(87 + 270)}{700} + \frac{192}{263} \times \frac{(263 + 80)}{700} \approx 0.8325

P^b(R) = \frac{234}{270} \times \frac{(87 + 270)}{700} + \frac{55}{80} \times \frac{(263 + 80)}{700} \approx 0.7789

베이즈 정리로 계산한 결과는 a가 78%, b가 83%로 나타났는데, 신장 결석의 효과를 제거한 인과관계로 추론한 결과는 a가 83%, b가 77%로 나타났다.
인과관계를 고려해서 중첩효과를 제거해 데이터 분석을 할 경우 조금 더 신뢰도가 높고, 안정적인 결과를 얻을 수 있다.