[U] Week 1 - 베이즈 통계학

JaeJun Lee ·2022년 9월 23일

부스트캠프 AI Tech

목록 보기

7/30

조건부확률 P(A|B)는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미한다.
베이즈 정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려준다.

P(\theta\vert D)=P(\theta)\frac{P(D\vert\theta)}{P(D)}

사전확률과 가능도를 이용해 Evidence를 구하고 이를 사용해 사후확률을 구한다.

오탐률이 오르면 테스트의 정밀도(Precision)가 떨어진다.
조건부 확률을 시각화하면 혼동 행렬(Confusion Matrix)로 나타낸다.
- 질병을 예시로 양성이 나왔을 때 실제 질병으로 관찰될 확률: True Positive
- 음성이 나왔을 때 실제 질병이 관찰되지 않을 확률: True Negative
- 양성이 나왔지만 실제 질병이 관찰되지 않을 확률(1종 오류): False Positive
- 음성이 나왔지만 실제 질병이 관찰될 확률(2종 오류): False Negative
$\frac{TP}{(TP + FP)} =$ 정밀도(Precision)

데이터 분석의 성격에 따라 1종 오류에 초점을 둘지 2종 오류에 초점을 둘지가 민감하다.

베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있다.

\tiny{갱신된\,사후확률(posterior)}\qquad\qquad\qquad\qquad 사후확률(posterior) \\ \normalsize P(\theta\vert D)=P(\theta)'\frac{P(D\vert\theta)}{P(D)} \qquad P(\theta\vert D)'=P(\theta)\frac{P(D\vert\theta)}{P(D)}\\ \small{P(\theta)' = P(\theta\vert D)'}

조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계(casality)를 추론할 때 함부로 사용해서는 안된다.

데이터가 많아져도 조건부 확률만 가지고 인과관계를 추론하는 것은 불가능하다.
인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요하지만 인과관계만으로는 높은 예측 정확도를 담보하기는 어렵다.
인과관계를 알아내기 위해서는 중첩요인(confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다.
- 중첩요인을 제거하지 않으면 가짜 연관성(spurious correlation)이 나올 수 있어 예측 모형에서 데이터 분포에 변화가 생겼을 때 예측 모델의 정확도를 떨어뜨리는 가장 큰 요인이 될 수 있다.