베이즈 통계학 맛보기
목표
- 사전확률, 사후확률, evidence 개념을 예제를 통해 정확히 이해할 것
- 인과관계 추론에서 조건부확률을 섣불리 사용하면 안되는 이유 이해할 것
- 중첩효과를 제거함으로써 얻은 인과관계를 어떤 방식으로 활용할 수 있는지 초점을 두고 공부할 것
조건부 확률이란?
- P(A ∩ B)=P(B)P(A∥B)
- 조건부확률 P(A∥B) 는 사건 B 가 일어난 상황에서 사건 A 가 발생할 확률
- 베이즈 정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려줌
- P(B∥A)=P(A ∩ B)/P(A) =P(B)P(A∥B)/P(A)
- A 라는 새로운 정보가 주어졌을 때 P(B) 로부터 P(B∥A) 를 계산하는 방법을 제공함
베이즈 정리: 예제
-
D : 새로 관찰되는 데이터
-
θ : 모델에서 계산하고 싶어하는 모수 (가설)
-
사후확률 : 데이터를 관찰했을 때, 이 가설이 성립할 확률 (데이터 관찰 이후 측정하기 때문에 사후확률)
-
사전확률 : 데이터 없을 때, 가설에 대해 사전에 세운 확률
-
가능도 : 현재 주어진 모수 (가정) 에서 이 데이터가 관찰될 가능성
-
Evidence : 데이터 전체의 분포
→ 가능도와 Evidence 를 통해 사전확률을 사후확률로 업데이트 하는 것!
-
COVID-99 의 발병률이 10% 로 알려져있다. COVID-99 에 실제로 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오검진될 확률이 1% 라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99 에 감염되었을 확률은?
- 사전확률, 민감도 (Recall), 오탐율 (False alarm) 을 가지고 정밀도 (Precision) 를 계산하는 문제
- θ 를 COVID-99 발병 사건으로 정의 (관찰 불가) 하고, D 를 테스트 결과라고 정의 (관찰 가능) 함.
- P(D), evidence 를 구해서 풀면됨, P(D ∥ ┐θ) 를 모르면 풀기 어려움
- 만약 오검진될 확률 (1종 오류) 이 1% 가 아닌 10% 가 된다면?
- 오탐율 (False alarm) 이 오르면 테스트의 정밀도 (Precision) 가 떨어짐
조건부 확률의 시각화
- confusion matrix 라고도 함
- True Positive : 양성이 나왔을 때 실제 발병한 경우
- True Negative : 음성이 나왔을 때 발병하지 않은 경우
- False Positive (1종 오류) : 양성이 나왔을 때 발병하지 않은 경우 (False alarm, 오탐과 관련 있음)
- False Negative (2종 오류) : 음성이 나왔을 때 발병한 경우
- 데이터 분석 성격에 따라 1종 오류나 2종 오류 중 중요한게 달라짐, 보통은 1종 오류보다 2종 오류를 더 심각하게 받아들임
- 사전 확률을 모르는 경우 임의 설정 가능하지만, 신뢰도가 떨어짐
- 정밀도는 TP 와 FP 를 분모로 둠, 오탐지율과 민감도가 반영됨
베이즈 정리를 통한 정보의 갱신
- 베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있음
- 앞서 판정 받은 사람이 두 번째 검진에서도 양성 판정을 받았을 때 진짜 발병했을 확률은?
조건부 확률 → 인과관계?
- 조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계 (causality) 를 추론할 때 함부로 사용해서는 안 됨 (A 가 B 의 원인인가? 같은 문제)
- 데이터가 많아져도 조건부 확률만 가지고 인과관계를 추론하는 것은 불가능
- 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요, 단, 인과관계 만으로는 높은 예측 정확도를 담보하기는 어려움 (데이터 분포 변화 강건하지만 예측 정확도는 조건부 확률보다 낮다)
- 인과관계를 알아내기 위해서는 중첩요인 Z (confounding factor) 의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 함, 만일 Z 의 효과를 제거하지 않으면 가짜 연관성 (spurious correlation) 이 나옴
- 키가 클수록 지능이 좋다 → 어린 아이 (키가 작은) 같이 연령에 따른 지능 지수는 고려하지 않았기 때문에 이런 결과가 나옴
인과관계 추론 : 예제
- 신장 결석 크기에 따라 치료법 a, b 중 선택하는 문제
- 전체적으로 봤을 때는 치료법 b 의 완치율이 높지만 각각의 환자에 대한 완치율을 보면 a 의 완치율이 더 높음 → 전체 평균으로 계산하면 오류를 범함 (심슨 패러독스)
- 조정 효과를 통해 Z 의 개입을 제거함
- 인과 관계 고려한 분석이 조건부보다 더 좋은 결과 나옴, 변수들끼리 관계 파악해야함
참조