Probability & Likelihood

용용·2024년 4월 9일

다변량데이터분석

목록 보기
3/4
post-thumbnail

Probability(확률)

  • 주사위를 던져서 특정 눈이 나올 확률

    나올 수 있는 결과는 1, 2, 3, 4, 5, 6 총 6가지이고 각각의 확률은 1/6이다.
  • 동전을 10번 던져서 앞면이 k번 나올 확률

    나올 수 있는 결과는 앞면이 나오는 횟수 0번, 1번, ..., 10번 총 11가지이고 각각의 확률은 0.001, 0.01, 0.044, ..., 0.001이다.

    이항 분포 : 이진실험(결과가 success/failure 둘중하나)을 n번 독립시행했을 때 성공횟수 k에 대한 확률 분포

  • 1~6 사이 숫자 중 5를 고를 확률

    나올 수 있는 결과가 무수히 많으므로 확률은 1/∞=0이다.
    -> 연속적인 event에 대해서는 항상 확률이 0이다.
    -> 특정 구간에 있는 값이 나올 확률을 구하자!
  • 1~6사이 숫자 중 4~5사이 숫자를 고를 확률

    1~2, 2~3, 3~4, 4~5, 5~6 중 한 가지 경우이므로 1/5=20% -> Probability density function

Probability Density Function(PDF):

특정 구간에 대한 확률을 구할 때 사용

  • 표준정규분포(평균=0, 분산=1)에서의 PDF

    Ex) z가 -1.96~1.96일 확률은 95%

Likelihood(가능도):

특정 지점에서의 PDF 값

위 표준정규분포에서 z=-1, 0, 1을 뽑을 확률: 0%×0%×0%=0%
위 표준정규분포에서 z=-1, 0, 1을 뽑을 가능도: 0.24×0.40×0.24=0.0230

-가능도는 모델이나 파라미터값(평균, 분산 등)이 관찰된 데이터를 얼마나 잘 설명하는지에 대한 측정으로 해석하며, 이를 이용해 모델의 파라미터값을 찾는다.
-확률이 아니기 때문에 총합이 1이 아님

  • Maximum Likelihood Estimator(MLE)
    관측된 데이터값에 가장 잘 맞는 파라미터값을 추정하는 데 사용되는 메소드
    <동작과정>
    ⓵ 모델(분포의 모양) 가정하기: 정규분포/이항분포 등등..
    ⓶ 가능도 함수 수행하기: 모든 관찰된 데이터값에 대한 확률밀도의 곱

    ⓷ 최대화하기: 가능도 함수를 최대화시키는 파라미터값 찾기


    각기 다른 파라미터값을 가지는 파란색, 빨간색, 초록색 세가지 모델을 고려했을 때 maximum likelihood를 가지는 모델을 채택한다. (θ는 각기 다른 모델을 나타냄)

profile
키보드를 뚱땅뚱땅

0개의 댓글