베이즈 통계학 간단한 정리

유상준·2022년 9월 23일
0
post-thumbnail

사후 확률을 갱신하는 과정이 기계학습과 비슷한 원리로 이루어진다는 점에서 학부생때는 접근하지 못했던 방법에 대해 다시 한 번 더 정리하고 공부하게 되었다.

베이즈 통계학

  • 모델의 모수를 추정할 때 이용되는 베이즈 정리를 이용한 통계학
  • 데이터가 추가 될 때 모수를 업데이트 하는 방법론 이기 때문에, 오늘날 머신러닝, 딥러닝등에 굉장히 잘 어울리는 철학이자 이론이다.
  • 사전 확률로 계산된 사후 확률을 이후 다시 사전 확률에 대입하여 사용한다는 점에서, 데이터가 추가 될 때 사후확률이 업데이트 되는 형태를 띈다.

ex) covid-99라는 질병 탐지 기술
covid-99의 발병률이 10%정도로 알려져 있고, 실제 질병에 걸렸을 때 검진될 확률은 99%, 걸리지 않았을 때 오검진될 확률은 1%라고 한다. 이 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 covid-99에 감염되었을 확률은?

P(θ)=0.1P(Dθ)=0.99P(D¬θ)=0.01P(D)=θP(Dθ)P(θ)=0.99×0.1+0.01×0.9=0.108P(θD)=P(θ)P(Dθ)P(D)=0.1×0.990.1080.916P(\theta) = 0.1 \quad P(D|\theta) = 0.99 \quad P(D|\neg\theta) = 0.01 \\ P(D) = \sum_{\theta}P(D|\theta)P(\theta) = 0.99\times0.1+0.01\times0.9 = 0.108 \\ P(\theta|D) = P(\theta)\frac{P(D|\theta)}{P(D)} = 0.1\times\frac{0.99}{0.108}\approx0.916

만약, 오검진률이 10%로 올라간다면?

P(θ)=0.1P(Dθ)=0.99P(D¬θ)=0.1P(D)=θP(Dθ)P(θ)=0.99×0.1+0.1×0.9=0.189P(θD)=P(θ)P(Dθ)P(D)=0.1×0.990.1890.524P(\theta) = 0.1 \quad P(D|\theta) = 0.99 \quad P(D|\neg\theta) = \textcolor{red}{0.1} \\ P(D) = \sum_{\theta}P(D|\theta)P(\theta) = 0.99\times0.1+\textcolor{red}{0.1}\times0.9 = \textcolor{red}{0.189} \\ P(\theta|D) = P(\theta)\frac{P(D|\theta)}{P(D)} = 0.1\times\frac{0.99}{\textcolor{red}{0.189}}\approx\textcolor{red}{0.524}
  • 사후 확률의 갱신

앞서 covid-99 판정을 반은 사람이 두 번째 검진을 받았을 때도 양성이 나왔을 때, 진짜 covid-99에 걸렸을 확률은? (52.4% 밖에 안되는 정밀도이니, 당연히 두번째에도 믿을 수 없을만한 수치가 나올까?)

P(θ)=0.524P(Dθ)=0.99P(D¬θ)=0.1P(D)=θP(Dθ)P(θ)=0.99×0.524+0.1×0.476=0.566P(θD)=P(θ)P(Dθ)P(D)=0.524×0.990.5660.917P(\textcolor{blue}{\theta\prime}) = \textcolor{blue}{0.524} \quad P(D|\theta) = 0.99 \quad P(D|\neg\theta) = {0.1} \\ P(\textcolor{blue}{D\prime}) = \sum_{\theta}P(D|\theta)P(\theta) = 0.99\times\textcolor{blue}{0.524}+{0.1}\times\textcolor{blue}{0.476} = \textcolor{blue}{0.566} \\ P(\theta|D) = P(\theta)\frac{P(D|\theta)}{P(D)} = \textcolor{blue}{0.524}\times\frac{0.99}{\textcolor{blue}{0.566}}\approx\textcolor{blue}{0.917}

91.7%라는 굉장히 높은 정밀도가 나오게 된다. (참고로 세번째 검사까지도 양성이 나온다면, 정밀도는 99.1%까지 갱신된다)

  • 하지만 조건부 확률을 인과관계를 추론할 때 함부로 사용해서는 안된다 (데이터가 아무리 많아져도 해결할 수 없는 문제이다)
  • 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요하다
  • 하지만 인과관계만으로는 높은 예측 정확도를 담보하기는 어렵다
  • 인과관계를 알아내기 위해서는 confounding factor의 효과를 제거하여야 한다
    • ex)
      1. 여름철 아이스크림의 매출량이 증가하였다.
      2. 같은 시기에 물놀이 사건 사고량이 증가하였다.
      위 사실을 토대로, 아이스크림의 매출량 증가와 물놀이 사건 사고간의 인과관계가 있다고 할 수 있는가? → X
         
  • 심슨의 역설 (Simpson's paradox)
    (추가적인 자료를 찾아서 업로드 해야한다)
    (범주형 자료분석 수업 때 사용 했던 자료와 예시를 업로드할 예정)
profile
데이터 사이언티스트 지망생

0개의 댓글