COVID-99의 발병률이 10%라고 하자. COVID-99에 실제로 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오검진될 확률이 1%라고 할 때 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99에 감염되었을 확률은?
이때, P(D|¬θ)를 모르면 이러한 문제 풀기 어려워지게 됨
조건부 확률의 시각화
베이즈 정리를 통한 정보의 갱신
베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있음
조건부 확률 -> 인과관계?
조건부 확률은 유용한 통계적 해석을 제공하나, 인과관계(causality)를 추론할 때 함부로 사용해선 안됨
인과관계는 데이터 분포의 변화에 강건한 예측모형 만들 때 필요
- 조건부확률 기반 예측모형은 시나리오에 따라 예측확률이 크게 변할 수 있음
- 인과관계 기반 예측모형은 높은 예측 정확도를 기대하면 안 된다. data 분포에 대해 경건한 예측모형은 가능.
인과관계를 알아내기 위해서는 중첩요인(confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야.
- 중첩요인을 제거하지 않을 경우, 가짜 연관성(spurious correlation) 나옴