[34일]데이터 모델링 - Bayes theorem의 관점

김준석·2024년 1월 11일
0

Bayes theorem의 관점

Bayes theorem : 조건부 확률을 계산하는 방법이다.

  • 조건부 확률 : 어떤 사건이 일어났다는 ‘전제 하에’ 다른 사건이 일어날 확률.

일반 조건부 관점

e.g. 두 사건 A,B가 있을 때, 사건 A가 일어났을 때 B가 일어날 확률은?

식으로 보면 이렇다. [A와 B가 동시에 일어날 확률 / A가 일어날 확률]

데이터 모델링 조건부 관점

e.g.데이터가 아래와 같다고 하자.

X= 관측한 데이터

쎄타 = 데이터에 대한 가설, 모델의 parameter(평균과 분산값)값

식은 위와 같고 이를 풀어보자면

  • P(X) : 데이터 X가 확률을 가질 분포

  • P(쎄타) : 데이터 관측 이전의 Parameter(평균과 분산값)의 확률 분포
    (보통은 모든 값에 대한 확률이 동일하다고 가정한다.)
    예를 들어 고등학생의 키를 관측하고자 할때. 모든 고등학생의 키는 어떤 값이 올지 모르기 때문에 그 값을 평균키로 가질 확률은 모두 동일하다고 가정!

  • P(X|쎄타) : Likelihood 즉 가능성!, Parameter가 주어졌을 때 x데이터가 관측될 확률분포

  • P(쎄타|X) : dataset X가 주어졌을때 parameter의 확률 분포

  • 궁극적으로 우리의 목적은 P(쎄타|X)를 최대화 하는 쎄타를 찾는것이다.

    • P(θ)가 일정하다는 가정 하에서는 P(X|θ)
      (대한민국 남자키의 평균값이 160이든 180이든 데이터 관측 전에는 키가 일정하다는 가정!)
      - Likelihood를 최대화 하는 θ를 추정(MLE를 쓰는 이유)
    • 그렇지 않을 때는(평균은 170~173이라는 가정을 했다면!)
      P(X|θ)P(θ)를 최대화 하는 θ를 추정(MAP)하는 과정이 데이터 모델링이라고한다.

0개의 댓글