조건부 확률
조건부확률 P(A|B)는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미한다.
베이즈 정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려준다.
- A라는 새로운 정보가 주어졌을 때 P(B)로부터 P(A|B)를 계산하는 방법을 제공한다.
P(θ∣D)=P(θ)P(D)P(D∣θ)
- Parmaeters
- P(θ∣D) -> 사후확률(posterior)
- P(D) -> Evidence: 데이터 자체의 분포
- P(D∣θ) -> 가능도(likelihood)
- P(θ) -> 사전확률(prior): 실제 질병의 발병률
- 사전확률 없이는 베이즈 정리로 분석하기 어렵다. (없으면 임의로 설정하지만 신뢰도가 떨어진다)
사전확률과 가능도를 이용해 Evidence를 구하고 이를 사용해 사후확률을 구한다.
- 오탐률이 오르면 테스트의 정밀도(Precision)가 떨어진다.
- 조건부 확률을 시각화하면 혼동 행렬(Confusion Matrix)로 나타낸다.
- 질병을 예시로 양성이 나왔을 때 실제 질병으로 관찰될 확률: True Positive
- 음성이 나왔을 때 실제 질병이 관찰되지 않을 확률: True Negative
- 양성이 나왔지만 실제 질병이 관찰되지 않을 확률(1종 오류): False Positive
- 음성이 나왔지만 실제 질병이 관찰될 확률(2종 오류): False Negative
- (TP+FP)TP= 정밀도(Precision)
데이터 분석의 성격에 따라 1종 오류에 초점을 둘지 2종 오류에 초점을 둘지가 민감하다.
- 암 환자와 같은 경우 상대적으로 1종 오류보다 2종 오류를 줄이는 것으로 설계한다.
베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있다.
갱신된사후확률(posterior)사후확률(posterior)P(θ∣D)=P(θ)′P(D)P(D∣θ)P(θ∣D)′=P(θ)P(D)P(D∣θ)P(θ)′=P(θ∣D)′
조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계(casality)를 추론할 때 함부로 사용해서는 안된다.
- 데이터가 많아져도 조건부 확률만 가지고 인과관계를 추론하는 것은 불가능하다.
- 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요하지만 인과관계만으로는 높은 예측 정확도를 담보하기는 어렵다.
- 인과관계를 알아내기 위해서는 중첩요인(confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다.
- 중첩요인을 제거하지 않으면 가짜 연관성(spurious correlation)이 나올 수 있어 예측 모형에서 데이터 분포에 변화가 생겼을 때 예측 모델의 정확도를 떨어뜨리는 가장 큰 요인이 될 수 있다.