[boostcamp-ai-tech][AI-Math] 8. 베이즈통계학 맛보기

whatSup CheatSheet·2022년 1월 19일
0

AI-Math

목록 보기
7/9
post-thumbnail
post-custom-banner

베이즈통계학 맛보기

  • 목차
    • 조건부 확률이란?
    • 베이즈정리: 예제
    • 조건부확률의 시각화(Confusion matrix)
    • 베이즈 정리를 통한 정보의 갱신
    • 인과관계

조건부 확률이란?

  • 주어진 사건이 일어났다는 가정 하에 다른 한 사건이 일어날 확률을 뜻한다

    위 예시에서 A라는 새로운 정보가 주어졌을 때 P(B)로부터 P(B|A)를 계산하는 방법을 제공한다.

  • 사후확률: 데이터를 관찰한 이후에 측정하는 확률
  • 사전확률: 데이터가 주어지지 않은 상황에서 θ\theta에 대한 확률(가설, 가정)(ex. 동전을 던져 앞면 나올 확률은 0.5로 알고 있음)
  • 가능도: 현재 주어진 모수(가정)에서 이 데이터가 관찰될 확률
  • Evidence: 데이터 전체의 분포

베이즈정리: 예제

  • 문제에서 주어진 것: 사전확률, 가능도

  • 우리는 사전확률과 가능도를 통해 evidence를 구할 수 있다.

    A가 binary variable 일 때, P(AB)=P(BA)P(A)P(BA)P(A)+P(B¬A)P(¬A)P(A|B) = \frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|\lnot A)P(\lnot A)}이다.

  • 이제 베이즈 정리를 해보면

    질병에 걸렸다고 검진결과가 나왔을 때 정말로 covid-99에 걸렸을 확률은 0.916이다.

  • 만약 오검진될 확률(1종 오류)이 1%가 아닌 10%였다면 어땠을까?

    오탐율(False alarm)이 오르면 테스트의 정밀도(Precision)이 떨어지는 것을 알 수 있다.

조건부확률의 시각화(Confusion matrix)

데이터 종류에 따라 어떤 오류에 중요도를 더 두어야 할지는 달라진다.(trade-off)

베이즈 정리를 통한 정보의 갱신

  • 베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있다.
    • 데이터를 새로 관찰할 때마다 모델의 파라미터를 점점 업데이트 하는 형태로 모델의 정확도와 예측도를 향상시킬 수 있다.
    • 앞서 covid 판정을 받은 사람(0.566)이 다시 검진을 받았을 때 양성이 나왔다면, covid-99에 걸렸을 확률은?

인과관계

  • 조건부확률은 유용한 통계적 해석을 제공하지만, 인과관계를 추론할 때 함부로 사용하면 안 된다.
  • 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요하지만, 높은 예측정확도를 담보하긴 어렵다.
  • 인관관계를 알아내기 위해선 중첩요인의 효과(외생변수)를 제거하고 원인에 해당하는 변수만 인관관계를 계산해야 한다.

    z의 개입을 제거해야 한다.

profile
AI Engineer : Lv 0
post-custom-banner

0개의 댓글