어떤 식으로 모수를 추정하는지에 필요한 베이즈 정리를 알아보자.
오늘날 기계 학습을 이용한 예측 모형에 많이 사용되는 방법론 중 하나이다.
조건부 확률이란?
- 베이즈 통계학을 이해하기 위한 기본 개념
- 베이즈정리, 조건부확률을 이용하여 정보를 갱신하는 방법
예제
Covid의 발명률이 10%라고 알려져있다. 실제로 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오검진될 확률이 1%라고 하자. 이 때, 질병에 걸렸다고 검진결과가 나온 사람이 정말 Covid에 감염되었을 확률은 얼마일까?
풀이
사전확률 :
가능도 :
Evidence =
오탐율(1종 오류가 일어날 확률)이 오르면 테스트의 정밀도(Precision)가 떨어진다.
Actual value는 사전확률이라고 생각할 수 있으며,
정밀도는 이다.
또한 오탐율(False Alarm)이 줄어들면 FP값이 줄어들게 되므로 정밀도가 올라가는 모습을 이해할 수 있다. 즉, 위의 Covid예제에서 어떤 사람이 실제 Covid가 아닐 때, 양성 진단을 받을 확률이 낮아지면 Covid 양성 진단을 받은 사람이 실제 Covid에 걸렸을 가능성이 올라간다는 뜻이다.
베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후 확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있다.
계속해서 업데이트하는 형태로 예측력을 향상시킬 수 있다.
예제2
앞서 Covid판정을 받은 사람이 두 번째 검진을 받았을 때도 양성이 나왔을 때 진짜 covid에 걸렸을 확률은?
풀이
이전의 결과의 사후확률인 를 새로운 사전확률로 갱신하고, 따라서 이를 기반으로 evidence가 새롭게 계산된다.
따라서 갱신된 사후확률
조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계를 추론할 때 함부로 사용해서는 안된다.
인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요하다.
새로운 데이터의 유입은 조건부 확률 기반 예측모형의 예측 정확도를 낮출 가능성이 높다. 따라서 인과관계 기반 예측모형 역시 고려해야 할 것이다.
인과관계를 알아내기 위해서는 중첩요인(Cofounding factor) 의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다. 이 효과를 제거하지 않을 시 가짜 연관성(Spurious correlation)이 나올 수 있다.(simpson's paradox)
제거 방법 : intervention효과를 통해 중첩요인의 개입을 제거한다. 중첩 요인이 Z = (z1,z2,...,zn) 이고 예측하려는 클래스가 A, B일 때 A는 로, B는 로 계산을 해서 단순히 조건부확률로 계산한 것과는 다른 결과를 보인다.