[부스트캠프 AI Tech 5기] Pre-Course : (20) 베이즈 통계학 맛보기

araseo·2022년 12월 27일
0
post-thumbnail

📖 조건부 확률이란?

  • 베이즈 통계학을 이해하기 위해선 조건부 확률의 개념을 이해해야함
    • P(AB)=P(B)(AB)P(A∩B) = P(B)(A|B)
      • 조건부 확률 P(AB)P(A|B) 는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미
  • 베이즈 정리는 조건부 확률을 이용하여 정보를 갱신하는 방법을 알려줌
    • P(BA)=P(B)P(B)=P(B)P(AB)P(A)P(B|A) = \frac{P(B)}{P(B)} = P(B)\frac{P(A|B)}{P(A)}
      • A 라는 새로운 정보가 주어졌을 때 P(B)P(B)로부터 P(BA)P(B|A)를 계산하는 방법을 제공함

📖 베이즈 정리: 예제

  • P(θD)=P(θ)P(Dθ)P(D)P(θ|D) = P(θ)\frac{P(D|θ)}{P(D)}
    • P(θD)P(θ|D) : 사후확률 (posterior)
    • P(θ)P(θ) : 사전확률 (prior)
    • P(Dθ)P(D|θ) : 가능도(likelihood)
    • P(D)P(D) : Evidence
  • COVID-99 의 발병률이 10%로 알려져있다. COVID-99 에 실제로 걸렸을 때 검진 확률이 99%, 실제로 걸리지 않았을 때 오검진될 확률이 1% 라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID- 99 에 감염되었을 확률은?
    • 사전확률, 민감도(Recall), 오탐율(False alarm)을 가지고 정밀도(Precision)를 계산하는 문제임
    • θ를 COVID-99 발병 사건으로 정의(관찰 불가)하고, D를 테스트 결과라고 정의(관찰 가능)함
      • P(θD)=P(θ)P(Dθ)P(D)P(θ|D) = P(θ)\frac{P(D|θ)}{P(D)}
      • P(θ)=0.1P(θ) = 0.1
      • P(Dθ)=0.99P(D|θ) = 0.99
      • P(D¬θ)=0.01P(D|¬θ) = 0.01
      • P(D)=θP(Dθ)P(θ)=0.99×0.1+0.01×0.9=0.108P(D) = \sum_{θ}{}P(D|θ)P(θ) = 0.99\times0.1 + 0.01\times0.9 = 0.108
      • P(θD)=0.1×0.990.1080.916P(θ|D) = 0.1 \times \frac{0.99}{0.108} \approx 0.916
      • 만약 P(D¬θ)P(D|¬θ)를 모른다면 이 문제는 풀기 어려움
    • 만일 오검진될 확률(1종 오류)이 1% 가 아닌 10% 라면?
      • P(D)=θP(Dθ)P(θ)=0.99×0.1+0.1×0.9=0.189P(D) = \sum_{θ}{}P(D|θ)P(θ) = 0.99\times0.1 + 0.1\times0.9 = 0.189
      • P(θD)=0.1×0.990.1890.524P(θ|D) = 0.1 \times \frac{0.99}{0.189} \approx 0.524
      • 오탐율(False alarm)이 오르면 테스트의 정밀도(Precision)가 떨어짐

📖 조건부 확률의 시각화

📖 베이즈 정리를 통한 정보의 갱신

  • 베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있습니다
  • 앞서 COVID-99 판정을 받은 사람이 두 번째 검진을 받았을 때도 양성이 나 왔을 때 진짜 COVID-99 에 걸렸을 확률은?
  • P(θD)=0.1×0.990.1890.524P(θ|D) = 0.1 \times \frac{0.99}{0.189} \approx 0.524
  • P(Dθ)=0.99P(D|θ) = 0.99
  • P(D¬θ)=0.1P(D|¬θ) = 0.1
  • P(D)=0.99×0.524+0.1×0.4760.566P(D*) = 0.99 \times 0.524 + 0.1 \times 0.476 \approx 0.566
  • P(θD)=0.524×0.990.5660.917P(θ|D*) = 0.524 \times \frac{0.99}{0.566} \approx 0.917
  • 세번째 검사해도 양성이 나오면 정밀도가 99.1% 까지 갱신됨

📖 조건부 확률 → 인과관계?

  • 조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계(causality)를 추론할 때 함부로 사용해서는 안 됨
    • 데이터가 많아져도 조건부 확률만 가지고 인과관계를 추론하는 것은 불가능
  • 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요함
    • 단, 인과관계만으로는 높은 예측 정확도를 담보하기는 어려움
  • 인과관계를 알아내기 위해서는 중첩요인(confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야함
    • 만일 Z 의 효과를 제거하지 않으면 가짜 연관성(spurious correlation)이 나오게 됨

📖 인과관계 추론: 예제

<이 게시물은 임성빈 교수님의 '베이즈 통계학 맛보기' 강의 자료를 참고하여 작성되었습니다.>

본 포스트의 학습 내용은 [부스트캠프 AI Tech 5기] Pre-Course 강의 내용을 바탕으로 작성되었습니다.
부스트캠프 AI Tech 5기 Pre-Course는 일정 기간 동안에만 운영되는 강의이며,
AI 관련 강의를 학습하고자 하시는 분들은 부스트코스 AI 강좌에서 기간 제한 없이 학습하실 수 있습니다.
(https://www.boostcourse.org/)

profile
AI를 공부하고 있는 학생입니다:)

0개의 댓글