베이즈 통계학을 이해하기 위해선 조건부확률의 개념을 이해해야 합니다.
조건부확률 는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미합니다.
베이즈 정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려줍니다.
- 베이즈 정리
D 는 관찰하는 데이터이고 는 모수(parameter) 입니다.
- : 사후확률(posterior), 데이터를 관찰했을 때 파라미터가 성립할 확률
- : 사전확률(prior), 데이터를 분석하기 전에 파라미터에 대한 확률
- : 우도(likelihood)
- : evidence, 데이터 자체의 분포
정확도(Accuracy) =
모든 분류 결과중에서 실제 참:예측 참, 실제 거짓:예측 거짓의 비율
정밀도(Precision) = ,
모델이 참으로 분류한 결과 중에서 실제 참의 비율. 얼마나 정밀하게 참으로 분류했는지를 표현.
재현도(Recall) =
정밀도와 비교되는 척도로서, 실제 참 중에서 모델이 참으로 분류한 비율.
정밀도는 모델이 참으로 분류한 것이 기준인 반면, 재현도는 실제 참값이 기준
F1 score =
Precision과 Recall의 조화평균.
조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계(causality)를 추론할 때 함부로 사용해서는 안 됩니다.
인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요합니다.
인과관계를 알아내기 위해서는 중첩요인(confounding factor)의 효과를 제거 하고 원인에 해당하는 변수만의 인과관계를 계산해야 합니다.