[Boostcamp AI Tech] AI Math 베이즈 통계학 맛보기

재윤·2022년 2월 19일
0

Boostcamp AI Tech

목록 보기
3/9

베이즈 정리란?

베이즈 정리를 살펴보기 전에 조건부 확률부터 알아보자.

P(AB)=P(B)P(AB)P(A\cap B) = P(B)P(A|B)

베이즈 정리는 조건부 확률을 이용하여 정보를 갱신하는 방법을 알려준다.

  • D\mathcal{D}는 새로 관찰하는 데이터(즉, 새로운 정보)를 의미한다.
  • θ\theta는 Hypothesis, 또는 모델링하는 이벤트, 또는 모델에서 계산하고 싶어하는 모수(parameter)를 의미한다.
  • P(θD)P(\theta|\mathcal{D})는 사후확률로, 데이터가 주어져 있을 때, hypothesis가 성립할 확률을 의미한다. 즉, 갱신하고 난 후의 신뢰도를 의미한다.
  • P(θ)P(\theta)는 사전확률로, 모델링하고자 하는 타겟(모수 등)에 대해 데이터를 분석하기 전에 가정한 확률분포를 의미한다. 즉, 갱신하기 전의 신뢰도를 의미한다.
  • P(D∣θ)는 가능도(likelihood, 우도)로, 현재 주어진 [모수/가정]에서 데이터 D\mathcal{D}가 관찰될 확률을 의미한다.
  • P(D)는 Evidence를 의미한다. 💡 이를 이용해 새로운 데이터가 들어왔을 때, **이전의 사후확률을 사전확률에 대입하여 새로운 사후확률을 얻는것이 가능하다.** (현재의 가정에서 새로운 데이터에 대한 신뢰도를 얻는 것)

조건부 확률의 시각화

  • 양성으로 판단하였으나 실제로는 음성인 경우는 1종오류(False Positive)라 한다.
  • 음성으로 판단하였으나 실제로는 양성인 경우는 2종오류(False Negative)라 한다.

데이터 분석의 성격에 따라 1종 오류와 2종 오류 중 어느 것을 먼저 줄여야 하는 지가 달라진다.

특히 2종 오류(False Negative)같은 경우 의료계에서 매우 심각한 문제이다. 누군가 큰 병에 걸렸는데 이를 오진할 경우, 생명에 위험을 줄 수가 있다.

이에 비해 1종 오류(False Negative)는 상대적으로 위험성이 떨어지므로, 보통은 오탐율(False Alarm)을 희생하더라도, 민감도(Recall)을 최대한 줄이는 방식으로 설계하곤 한다.

이를 가지고 우리는 정밀도를 구할 수 있다.

TPTP+FPTP\over{TP+FP}로 계산하는데 분모는 양성으로 판단한 경우이고 분자는 실제로 양성인 경우이다. 오탐율(TPFP+TNTP\over{FP+TN})에 주목을해보면, 오탐율이 커질수록 정밀도는 낮아지고, 반대로 오탐율이 작아지면 정밀도는 높아진다. 또한 민감도(TPTP+FNTP\over{TP+FN})가 커질수록 정밀도가 높아진다.

이처럼 정밀도(precision)는 오탐율(false alarm)과 민감도(recall)에 영향을 받는다.


조건부 확률 → 인과관계?

  • 조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계를 추론할 때 함부로 사용해서는 안된다.
  • 데이터가 많아져도 조건부 확률만 가지고 인과관계를 추론하는것은 불가능
  • 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요

  • 인과관계를 알아내기 위해서는 중첩요인(confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다.

예를 들어 “키가 클수록 지능이 좋다.”라는 결론이 나왔다. 이는 잘못된 결론이며 어린아이 같이 연령에 따른 지능 지수는 고려하지 않았기 때문에 가짜 연관성이 나오게 된 것이다.


베이즈 정리 예제

사전확률, 민감도, 오탐율을 가지고 정밀도를 계산해보자

위 문제(질병에 걸렸다고 검진결과가 나왔을때 정말로 covid-99에 감염되었을 확률은?)의 정답은 91.6%이다.

그러면 이때, 오검진될 확률(1종오류)이 1%→10%면 어떻게 될까?

→ 오탐율(false alarm)이 오르면 테스트의 정밀도(precision)가 떨어지게 된다.

📤위로 올라가기

위 예제에 이어서 사후확률을 갱신해보자(아래 식을 이용하면 된다.)

→ 앞서 covid-99 판정을 받은 사람이 두번째 검진에서도 양성이 나왔을 때 진짜 covid-99에 걸렸을 확률은?

(+ 추가로 세번째 검사해도 양성이 나오면 정밀도가 99.1% 까지 갱신된다고한다. 직접 계산해보자)


인과관계 추론 예제

이번엔 신장 결석 크기에 따라 두개의 치료법 a, b 중 선택하는 문제이다.

  • 전체적으로 봤을 때는 치료법 b 의 완치율이 높지만 각각의 환자에 대한 완치율을 보면 a 의 완치율이 더 높음 → 전체 평균으로 계산하면 오류를 범함 (심슨 패러독스)
  • 조정 효과를 통해 Z 의 개입을 제거함

profile
Naver Boostcamp AI Tech 3기🎈⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀ㅤㅤ⠀⠀ㅤㅤㅤㅤㅤㅤㅤㅤ2022 데이터분석 청년수련생

0개의 댓글