위 예시에서 A라는 새로운 정보가 주어졌을 때 P(B)로부터 P(B|A)를 계산하는 방법을 제공한다.
- 사후확률: 데이터를 관찰한 이후에 측정하는 확률
- 사전확률: 데이터가 주어지지 않은 상황에서 에 대한 확률(가설, 가정)(ex. 동전을 던져 앞면 나올 확률은 0.5로 알고 있음)
- 가능도: 현재 주어진 모수(가정)에서 이 데이터가 관찰될 확률
- Evidence: 데이터 전체의 분포
문제에서 주어진 것: 사전확률, 가능도
우리는 사전확률과 가능도를 통해 evidence를 구할 수 있다.
A가 binary variable 일 때, 이다.
이제 베이즈 정리를 해보면
질병에 걸렸다고 검진결과가 나왔을 때 정말로 covid-99에 걸렸을 확률은 0.916이다.
만약 오검진될 확률(1종 오류)이 1%가 아닌 10%였다면 어땠을까?
오탐율(False alarm)이 오르면 테스트의 정밀도(Precision)이 떨어지는 것을 알 수 있다.
데이터 종류에 따라 어떤 오류에 중요도를 더 두어야 할지는 달라진다.(trade-off)
- 데이터를 새로 관찰할 때마다 모델의 파라미터를 점점 업데이트 하는 형태로 모델의 정확도와 예측도를 향상시킬 수 있다.
- 앞서 covid 판정을 받은 사람(0.566)이 다시 검진을 받았을 때 양성이 나왔다면, covid-99에 걸렸을 확률은?
z의 개입을 제거해야 한다.