Ai tech Day11

Lee·2021년 2월 1일

베이즈 통계학

조건부 확률 $P(A|B)$ 는 사건 $B$ 가 일어난 상황에서 사건 $A$ 가 발생할 확률

$P(A \cap B) = P(B)P(A|B)$

베이즈 정리는 조건부 확률을 이용하여 정보를 갱신하는 방법을 알려준다.
$A$ 라는 새로운 정보가 주어졌을 때 $P(B)$ 부터 $P(B|A)$ 를 계산하는 방법을 제공한다.

$\mathcal{D}$ : 새로 관찰하는 데이터
$\theta$ : hypothesis, 모델링하는 이벤트, 모수
오탐율(False alarm)이 오르면 테스트의 정밀도(Precision)가 떨어진다.
Confusion Matrix

정밀도 $P(\theta|\mathcal{D}) = \cfrac{TP}{TP + FP}=0.916$
베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있습니다.
조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계(causality)를 추론할 때 함부로 사용해서는 안 됩니다. (데이터가 많아져도 조건부 확률만 가지고 인과관계를 추론하는 것은 불가능합니다.)

인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요합니다. (인과관계만 고려해서 예측모형을 만들면 높은 예측정확도를 담보하기는 어렵다)
인과관계를 알아내기 위해서는 중첩요인(confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 합니다.

대표적인 예: 키(T)와 지능지수(R)와의 관계는 키가 T가 클수록 R이 높게 나오지만 이는 나이라는 중첩효과를 제거하지 않아서이다. 키가 크다고 지능 지수가 높은것은 아니다.