베이즈 통계학 맛보기

Heath_Jeong·2021년 3월 7일
0

Ustage Week3 - DL Basic

목록 보기
1/10

베이즈 통계학 맛보기

목표

  • 사전확률, 사후확률, evidence 개념을 예제를 통해 정확히 이해할 것
  • 인과관계 추론에서 조건부확률을 섣불리 사용하면 안되는 이유 이해할 것
  • 중첩효과를 제거함으로써 얻은 인과관계를 어떤 방식으로 활용할 수 있는지 초점을 두고 공부할 것

조건부 확률이란?

  • P(A  B)=P(B)P(AB)P(A\ \cap\ B) = P(B)P(A\|B)
  • 조건부확률 P(AB)P(A\|B) 는 사건 B 가 일어난 상황에서 사건 A 가 발생할 확률
  • 베이즈 정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려줌
  • P(BA)=P(A  B)/P(A) =P(B)P(AB)/P(A)P(B\|A) = P(A\ \cap\ B)/P(A)\ = P(B)P(A\|B)/P(A)
  • A 라는 새로운 정보가 주어졌을 때 P(B)P(B) 로부터 P(BA)P(B\|A) 를 계산하는 방법을 제공함

베이즈 정리: 예제

  • D : 새로 관찰되는 데이터

  • θ\theta : 모델에서 계산하고 싶어하는 모수 (가설)

  • 사후확률 : 데이터를 관찰했을 때, 이 가설이 성립할 확률 (데이터 관찰 이후 측정하기 때문에 사후확률)

  • 사전확률 : 데이터 없을 때, 가설에 대해 사전에 세운 확률

  • 가능도 : 현재 주어진 모수 (가정) 에서 이 데이터가 관찰될 가능성

  • Evidence : 데이터 전체의 분포

    가능도와 Evidence 를 통해 사전확률을 사후확률로 업데이트 하는 것!

  • COVID-99 의 발병률이 10% 로 알려져있다. COVID-99 에 실제로 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오검진될 확률이 1% 라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99 에 감염되었을 확률은?

    • 사전확률, 민감도 (Recall), 오탐율 (False alarm) 을 가지고 정밀도 (Precision) 를 계산하는 문제
    • θ\theta 를 COVID-99 발병 사건으로 정의 (관찰 불가) 하고, DD 를 테스트 결과라고 정의 (관찰 가능) 함.
    • P(D)P(D), evidence 를 구해서 풀면됨, P(D  θ)P(D\ \|\ \urcorner\theta) 를 모르면 풀기 어려움

  • 만약 오검진될 확률 (1종 오류) 이 1% 가 아닌 10% 가 된다면?

- 오탐율 (False alarm) 이 오르면 테스트의 정밀도 (Precision) 가 떨어짐

조건부 확률의 시각화

  • confusion matrix 라고도 함
  • True Positive : 양성이 나왔을 때 실제 발병한 경우
  • True Negative : 음성이 나왔을 때 발병하지 않은 경우
  • False Positive (1종 오류) : 양성이 나왔을 때 발병하지 않은 경우 (False alarm, 오탐과 관련 있음)
  • False Negative (2종 오류) : 음성이 나왔을 때 발병한 경우
  • 데이터 분석 성격에 따라 1종 오류나 2종 오류 중 중요한게 달라짐, 보통은 1종 오류보다 2종 오류를 더 심각하게 받아들임
  • 사전 확률을 모르는 경우 임의 설정 가능하지만, 신뢰도가 떨어짐
  • 정밀도는 TP 와 FP 를 분모로 둠, 오탐지율과 민감도가 반영됨

베이즈 정리를 통한 정보의 갱신

  • 베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있음

  • 앞서 판정 받은 사람이 두 번째 검진에서도 양성 판정을 받았을 때 진짜 발병했을 확률은?

조건부 확률 → 인과관계?

  • 조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계 (causality) 를 추론할 때 함부로 사용해서는 안 됨 (A 가 B 의 원인인가? 같은 문제)
  • 데이터가 많아져도 조건부 확률만 가지고 인과관계를 추론하는 것은 불가능
  • 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요, 단, 인과관계 만으로는 높은 예측 정확도를 담보하기는 어려움 (데이터 분포 변화 강건하지만 예측 정확도는 조건부 확률보다 낮다)

  • 인과관계를 알아내기 위해서는 중첩요인 Z (confounding factor) 의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 함, 만일 Z 의 효과를 제거하지 않으면 가짜 연관성 (spurious correlation) 이 나옴
    • 키가 클수록 지능이 좋다 → 어린 아이 (키가 작은) 같이 연령에 따른 지능 지수는 고려하지 않았기 때문에 이런 결과가 나옴

인과관계 추론 : 예제

  • 신장 결석 크기에 따라 치료법 a, b 중 선택하는 문제
  • 전체적으로 봤을 때는 치료법 b 의 완치율이 높지만 각각의 환자에 대한 완치율을 보면 a 의 완치율이 더 높음 → 전체 평균으로 계산하면 오류를 범함 (심슨 패러독스)
  • 조정 효과를 통해 Z 의 개입을 제거함

  • 인과 관계 고려한 분석이 조건부보다 더 좋은 결과 나옴, 변수들끼리 관계 파악해야함


참조

  • BoostCamp AI Tech
profile
데이터로 문제를 해결하는 엔지니어를 꿈꿉니다.

0개의 댓글