베이즈 통계학

ganta·2021년 2월 1일
0

딥러닝 기초수학

목록 보기
7/9
post-thumbnail
post-custom-banner

조건부 확률


  • 조건부 확률

    조건부확률 P(A|B)는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미

베이즈 정리


  • 베이즈 정리
    베이즈 정리는 조건부 확률을 이용하여 정보를 갱신하는 방법

    이 식은 A라는 새로운 정보가 주어졌을 때 P(B)로부터 P(B|A)를 계산하는 방법이다. 즉, 새로운 정보가 들어왔을 때 기존의 확률을 갱신하는 것이다.
  • 일반적인 표현

  • 베이즈 정리 사용 예시
    문제상황
    어느 질병 A의 발병률이 0.2%로 알려져 있고, 실제로 질병이 있을 때, 질병이 있다고 검진할 확률은 98%, 실제로 걸리지 않았을 때 걸리지 않았다고 할 확률이 99%일때, 어떤 사람이 질병 A에 걸렸다고 판정을 받았을 때, 정말로 질병에 걸렸을 확률?

    약 96%의 답을 도출 할 수 있다.

  • 베이즈 정리를 통해 새로운 데이터가 들어왔을 시 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산 할 수 있다.
    문제예시
    앞 문제에서 질병 판정을 받은 사람이 두번째 검진 판단을 받았을 때도 확진 판정을 받았으면 진짜 걸렸을 확률은?

    계산시 대략적인 값을 사용하였는데 거의 1에 가까운 수가 나오게 된다. 이는, 검사를 두번 했을 시 거의 모두가 질병을 가진다는 결과를 보여주게 된다.

  • 조건부 확률의 시각화 표현
    조건부 확률을 각각의 경우를 도표로 나타내 보게 되면 다음과 같은 연관관계를 볼 수 있다.

    1, True & False : 위의 예시에서 theta가 참인지 거짓인지 나타냄
    2, Positive & Negative : 위의 예시에서 D가 참인지 거짓인지를 나타냄

머신러닝에서는 데이터의 성질에 따라 False Negative를 줄일지 True Negative를 늘릴지 등등 데이터에 특성에 따라 값을 보는 시각에 따라 특징을 잡아내는 노력을 하게 된다.
(위의 예시에서는 특징을 잡을 때 실제 걸렸는가 검사시에 걸렸는가에 초점에 따라 데이터를 보는 관점이 달라지게 될 수 있다.)

조건부 확률의 인과관계


  • 조건부 확률은 유용한 해석을 제공하나 인과관계를 추론 시 주의를 해야 한다.
  • 인과관계를 알아내긱 위해서는 중첩요인의 효과를 제거 후 원인에 해당하는 변수만의 인과관계를 계산해야 한다.

가령, 치료법 T(a,b)가 존재 할 때 완치 R이 존재하고 이 두 사건에 영향을 미치는 Z가 운동이라 가정을 해 보자

출처
Naver BoostCamp AI Tech - edwith 강의
Elements of Causal Inference, Peters et al.

이때, 전체적으로 보면 치료법 b가 효능이 있어 보이지만 실재로 인과관계 Z를 고려하면 치료법 a가 더 효능이 있어 보이고 풀이 과정은 다음과 같다.

Reference

Naver BoostCamp AI Tech - edwith 강의
https://angeloyeo.github.io/2020/01/09/Bayes_rule.html

profile
한걸음씩 꾸준히
post-custom-banner

1개의 댓글

comment-user-thumbnail
2022년 7월 12일

글 보다가 질문이 생겨서 남겨요! 질병A의 발병률이 0.2%면 질병A가 발생할 확률, 즉 실제로 질병A에 걸렸을 확률인 p(세타)는 0.2가 아니라 0.002인 것 아닌가요?

답글 달기