베이즈 통계학 맛보기

김선재·2021년 12월 17일
0

AI Tech

목록 보기
4/8
post-thumbnail

✨ 베이즈정리는 데이터가 새로 추가될 때 정보를 업데이트하는 방식에 대한 이론적 설명
👉 오늘날 머신러닝에 사용하는 예측 모델의 방법론이다

조건부 확률 ( P(A  B)P(A\ | \ B) )

💡 베이즈 통계학을 이해하기 위해선 조건부확률의 개념을 이해해야 한다

  • 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미
    P(AB)=P(B)P(AB)P(A \cap B) = P(B)P(A|B)

    P(B  A)=P(A  B)P(A)=P(B)P(A  B)P(A)P(B\ |\ A) = \frac{P(A\ \cap \ B)}{P(A)} = P(B)\frac{P(A\ |\ B)}{P(A)}

  • A라는 새로운 정보가 주어졌을 때 P(B)로 부터 P(BA)P(B|A)를 계산하는 방법을 제공한다

베이즈 정리

  • 조건부 확률을 이용하여 정보를 갱신하는 방법을 알려준다
    • 사후확률( posterior ): 데이터가 주어졌을때 hyphosis가 발생할 확률
    • 사전확률( prior ): 데이터가 주어지지않은 상황에서 θ에 대한 사전에 계산된 확률
    • 가능도( likelihood ): 현재 주어진 parmeter, 모수, 가정에서 이 데이터가 발견될 확률
    • Evidence: 데이터 자체의 분포

베이즈 정리: 예제

💡 COVID-99의 발병률이 10%로 알려져있다. COVID-99에 실제로 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오검진될 확률이 1%라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99에 감염되었을 확률은?
👉 사전확률, 민감도( Recall ), 오탐율( False alarm )을 가지고 정밀도( Precision )를 계산하는 문젱이다

  • θ\theta를 COVID-99 발병 사건으로 정의하고, D를 테스트 결과라고 정의 한다
  • COVID-99의 발병률이 10%라고 알려져있기때문에 사전확률은 P(θ)=0.1P(\theta) = 0.1이다
  • 바이러스에 실제로 걸렸을 때 검진될 확률이 99%리기 때문에 P(Dθ)=0.99P(D|\theta) = 0.99이다
  • P(D)P(D)를 구하는 방법

조건부 확률의 시각화


✨ 데이터의 성격에 따라 1종 오류를 줄일지, 2종 오류를 줄일지에 대한 초점을 어디에 맞춰야하는지가 달라진다
💡 암에 대한 검진률은 걸리지 않은 사람을 걸렸다고 검진하는 것보다 걸린 사람을 걸리지 않았다고 검진하는 것이 더 치명적이다
👉 따라서 2종 오류를 줄이는데 초점을 맞춰야 한다

베이즈 정리를 통한 정보의 갱신

  • ✨✨✨ 베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있다

💡 앞서 COVID-99 판정을 받은 사람이 두 번째 검진을 받았을 때도 양성이 나왔을 때 진짜 COVID-99에 걸렸을 확률은?
P(θ  D)=0.1 ×0.990.189 0.524P(\theta \ |\ D) = 0.1\ \times \frac{0.99}{0.189} \ \approx 0.524

인과관계

  • 조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계 ( causality )를 추론할 때 함부로 사용하서는 안된다
  • 데이터가 많아져도 조건부 확률만 가지고 인과관계를 추론하는 것은 불가능
  • 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요
    • 단 인과관계만으로는 높은 예측 정확도를 담보하기는 어렵다
  • 인관관계를 알아내기 위해서는 중첩요인( confounding factor )의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다
    • 만일 ZZ의 효과를 제거하지 않으면 가짜 연관성( spurious crrelation )이 나온다

인과관계 추론: 예제



profile
data science!!, data analyst!! ///// hello world

0개의 댓글