📖 조건부 확률이란?
- 베이즈 통계학을 이해하기 위해선 조건부 확률의 개념을 이해해야함
- P(A∩B)=P(B)(A∣B)
- 조건부 확률 P(A∣B) 는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미
- 베이즈 정리는 조건부 확률을 이용하여 정보를 갱신하는 방법을 알려줌
- P(B∣A)=P(B)P(B)=P(B)P(A)P(A∣B)
- A 라는 새로운 정보가 주어졌을 때 P(B)로부터 P(B∣A)를 계산하는 방법을 제공함
📖 베이즈 정리: 예제
- P(θ∣D)=P(θ)P(D)P(D∣θ)
- P(θ∣D) : 사후확률 (posterior)
- P(θ) : 사전확률 (prior)
- P(D∣θ) : 가능도(likelihood)
- P(D) : Evidence
- COVID-99 의 발병률이 10%로 알려져있다. COVID-99 에 실제로 걸렸을 때 검진 확률이 99%, 실제로 걸리지 않았을 때 오검진될 확률이 1% 라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID- 99 에 감염되었을 확률은?
- 사전확률, 민감도(Recall), 오탐율(False alarm)을 가지고 정밀도(Precision)를 계산하는 문제임
- θ를 COVID-99 발병 사건으로 정의(관찰 불가)하고, D를 테스트 결과라고 정의(관찰 가능)함
- P(θ∣D)=P(θ)P(D)P(D∣θ)
- P(θ)=0.1
- P(D∣θ)=0.99
- P(D∣¬θ)=0.01
- P(D)=∑θP(D∣θ)P(θ)=0.99×0.1+0.01×0.9=0.108
- P(θ∣D)=0.1×0.1080.99≈0.916
- 만약 P(D∣¬θ)를 모른다면 이 문제는 풀기 어려움
- 만일 오검진될 확률(1종 오류)이 1% 가 아닌 10% 라면?
- P(D)=∑θP(D∣θ)P(θ)=0.99×0.1+0.1×0.9=0.189
- P(θ∣D)=0.1×0.1890.99≈0.524
- 오탐율(False alarm)이 오르면 테스트의 정밀도(Precision)가 떨어짐
📖 조건부 확률의 시각화
📖 베이즈 정리를 통한 정보의 갱신
- 베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있습니다
- 앞서 COVID-99 판정을 받은 사람이 두 번째 검진을 받았을 때도 양성이 나 왔을 때 진짜 COVID-99 에 걸렸을 확률은?
- P(θ∣D)=0.1×0.1890.99≈0.524
- P(D∣θ)=0.99
- P(D∣¬θ)=0.1
- P(D∗)=0.99×0.524+0.1×0.476≈0.566
- P(θ∣D∗)=0.524×0.5660.99≈0.917
- 세번째 검사해도 양성이 나오면 정밀도가 99.1% 까지 갱신됨
📖 조건부 확률 → 인과관계?
- 조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계(causality)를 추론할 때 함부로 사용해서는 안 됨
- 데이터가 많아져도 조건부 확률만 가지고 인과관계를 추론하는 것은 불가능
- 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요함
- 단, 인과관계만으로는 높은 예측 정확도를 담보하기는 어려움
- 인과관계를 알아내기 위해서는 중첩요인(confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야함
- 만일 Z 의 효과를 제거하지 않으면 가짜 연관성(spurious correlation)이 나오게 됨
📖 인과관계 추론: 예제
<이 게시물은 임성빈 교수님의 '베이즈 통계학 맛보기' 강의 자료를 참고하여 작성되었습니다.>
본 포스트의 학습 내용은 [부스트캠프 AI Tech 5기] Pre-Course 강의 내용을 바탕으로 작성되었습니다.
부스트캠프 AI Tech 5기 Pre-Course는 일정 기간 동안에만 운영되는 강의이며,
AI 관련 강의를 학습하고자 하시는 분들은 부스트코스 AI 강좌에서 기간 제한 없이 학습하실 수 있습니다.
(https://www.boostcourse.org/)