[U] Week 1 - 베이즈 통계학

JaeJun Lee ·2022년 9월 23일
0

부스트캠프 AI Tech

목록 보기
7/30

조건부 확률

조건부확률 P(A|B)는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미한다.
베이즈 정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려준다.

  • A라는 새로운 정보가 주어졌을 때 P(B)로부터 P(A|B)를 계산하는 방법을 제공한다.
P(θD)=P(θ)P(Dθ)P(D)P(\theta\vert D)=P(\theta)\frac{P(D\vert\theta)}{P(D)}
  • Parmaeters
    • P(θD)P(\theta\vert D) -> 사후확률(posterior)
    • P(D)P(D) -> Evidence: 데이터 자체의 분포
    • P(Dθ)P(D\vert \theta) -> 가능도(likelihood)
    • P(θ)P(\theta) -> 사전확률(prior): 실제 질병의 발병률
      • 사전확률 없이는 베이즈 정리로 분석하기 어렵다. (없으면 임의로 설정하지만 신뢰도가 떨어진다)

사전확률과 가능도를 이용해 Evidence를 구하고 이를 사용해 사후확률을 구한다.

  • 오탐률이 오르면 테스트의 정밀도(Precision)가 떨어진다.
  • 조건부 확률을 시각화하면 혼동 행렬(Confusion Matrix)로 나타낸다.
    • 질병을 예시로 양성이 나왔을 때 실제 질병으로 관찰될 확률: True Positive
    • 음성이 나왔을 때 실제 질병이 관찰되지 않을 확률: True Negative
    • 양성이 나왔지만 실제 질병이 관찰되지 않을 확률(1종 오류): False Positive
    • 음성이 나왔지만 실제 질병이 관찰될 확률(2종 오류): False Negative
  • TP(TP+FP)=\frac{TP}{(TP + FP)} = 정밀도(Precision)

데이터 분석의 성격에 따라 1종 오류에 초점을 둘지 2종 오류에 초점을 둘지가 민감하다.

  • 암 환자와 같은 경우 상대적으로 1종 오류보다 2종 오류를 줄이는 것으로 설계한다.

베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있다.

갱신된사후확률(posterior)사후확률(posterior)P(θD)=P(θ)P(Dθ)P(D)P(θD)=P(θ)P(Dθ)P(D)P(θ)=P(θD)\tiny{갱신된\,사후확률(posterior)}\qquad\qquad\qquad\qquad 사후확률(posterior) \\ \normalsize P(\theta\vert D)=P(\theta)'\frac{P(D\vert\theta)}{P(D)} \qquad P(\theta\vert D)'=P(\theta)\frac{P(D\vert\theta)}{P(D)}\\ \small{P(\theta)' = P(\theta\vert D)'}

조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계(casality)를 추론할 때 함부로 사용해서는 안된다.

  • 데이터가 많아져도 조건부 확률만 가지고 인과관계를 추론하는 것은 불가능하다.
  • 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요하지만 인과관계만으로는 높은 예측 정확도를 담보하기는 어렵다.
  • 인과관계를 알아내기 위해서는 중첩요인(confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다.
    • 중첩요인을 제거하지 않으면 가짜 연관성(spurious correlation)이 나올 수 있어 예측 모형에서 데이터 분포에 변화가 생겼을 때 예측 모델의 정확도를 떨어뜨리는 가장 큰 요인이 될 수 있다.

0개의 댓글