베이지안

한상우·2025년 3월 26일

스터디

목록 보기
15/23

빈도주의 확률 VS 베이지안 확률

🎲 빈도주의(Frequentist) 확률 :

  • 반복 가능한 실험 : 어떤 사건이 무한히 반복되었을 때의 비율로 해석하며, 객관적인 수치이다.

  • 공정한 실험을 가정 : 실험을 충분히 많이 반복하면 그 비율은 수렴한다고 가정한다.


🧠 베이지안(Bayesian) 확률 :

  • 주관적인 믿음의 정도 : 확률을 어떤 명제가 참일 것이라고 믿는 정도, 즉 주관적인 믿음의 크기로 해석한다.

  • 정보에 따른 갱신 : 확률은 우리가 가지고 있는 정보에 따라 바뀔 수 있으며, 정보가 갱신되면 믿음도 함께 갱신되어야 한다.


✅ 주요 차이점 정리

항목빈도주의베이지안
확률 해석장기적 비율믿음(주관적 확률)
핵심 개념반복 실험, 표본공간정보 갱신, 조건부 확률
공정성전제추론 대상
시간 개념반복 실험 전제 → 간접적 시간 흐름없음, 정보 기준
사건 발생객관적 현실조건부 정보 입력
예시: 주사위6이 나올 확률은 1/6공정하다고 믿으면 1/6, 아니면 다르게 설정
  • 빈도주의가 객관적이고 반복 가능한 실험에서 강점을 가진다면, 베이지안은 정보가 제한된 상황, 사건이 한 번만 일어나는 상황, 사전 지식이 중요한 상황에서 강력한 도구가 된다.

  • 베이지안에서는 단순히 "확률이 0.6이다"라고 말하는 대신, 그 확률이 어떤 믿음을 바탕으로 했는지, 그리고 그 믿음은 어떻게 바뀌는지를 함께 고민할 수 있다.

베이지안 기초 확률 개념

  • 빈도주의에서 배운 개념(곱의 법칙, 합의 법칙)을 수학적으로는 동일하게 사용할 수 있지만, 해석 방식과 활용 목적이 다르다.
  • 베이지안에서는 모든 확률을 조건부 확률로 해석한다 (전체 확률의 법칙 기반)

    P(A)=iP(AIi)P(Ii)P(A) = \sum_i P(A \mid I_i)\cdot P(I_i)

    • 베이지안에서는 확률 P(A)P(A)도 사실은 P(AI)P(A \mid I)처럼 어떤 배경 지식 II 하에서 정의된 조건부 확률로 간주한다.

    • 즉, 무조건적인 확률처럼 보이는 것도 실제로는 어떤 정보가 전제된 해석이다.


  • 독립 사건

    • 일반적 수학 표현 : P(AB)=P(A)P(B)P(A \cap B) = P(A)\cdot P(B)

    • 베이지안 해석 : 정보 BBAA에 대한 믿음을 바꾸지 않을 때, A와 B는 독립이다.

      P(AB,I)=P(AI)P(A \mid B,I) = P(A \mid I)


  • 종속 사건 :

    • 베이지안 해석 : 정보가 서로 영향을 주는 관계. 즉, BB를 알게 되면 AA에 대한 믿음이 바뀌는 경우.

  • 배반 사건 :

    • 일반적 수학 표현 : AB=P(AB)=0A \cap B = \emptyset \Rightarrow P(A \cap B) = 0

    • 베이지안 해석 : 정보적 배타성으로 해석한다
      즉, 가능한 서로 다른 가설 A와 B 중 하나만 참일 수 있다는 믿음을 의미한다.


베이즈 정리

  • 아직 어떤 데이터 𝐷도 관측하지 않았을 때, 가설 𝐻의 그럴듯함을 P(H)P(H)로 표현한다.
  • 사건 𝐷에 대한 정보를 관측하게 되었을 때, 이 정보를 바탕으로 P(H)P(H)를 갱신할 수 있다.

P(HD)=P(DH)P(H)P(D)P(H|D) = {P(D|H)P(H)\over P(D)}

항목의미해석
P(H)P(H)PriorDD를 고려하지 않았을 때 HH가 성립할 것이라고 믿는 정도(사전 확률)
P(D)P(D)EvidenceDD가 관측될 전체 확률(정규화 상수 역할)
P(DH)P(D\mid H)LikelihoodHH가 옳다고 가정했을 때, DD가 관측될 확률
P(HD)P(H\mid D)PosteriorDD가 주어졌을 때, HH가 옳을 확률(업데이트된 사후 확률)
  • 우리가 기존에 HH에 대한 지식이 있다면?

    • 최대한 공정하게 P(H)P(H)를 정한 뒤, 새로운 정보 DD를 반영하여 기존 지식을 업데이트 할 수 있다.
  • 우리가 기존에 HH에 대한 지식이 없다면?

    • 무지의 상태(ex. P(H)=0.5P(H) = 0.5)에서 출발하고, DD를 통해 HH의 가능성을 점진적으로 업데이트할 수 있다.

베이지안 추정 (Bayesian estimation)

  • 빈도주의 추정에서는 모수를 고정된 값으로 보며, 그 최적값을 계산한다(optimize)
  • 베이지안 추정에서는 모수를 확률변수로 보며, 사후 분포로부터 모수의 확률 분포를 추정한다.

베이지안 추정 - 평균

  • 관측값 : x=x1,x2,...,xnx = {x_1, x_2, ..., x_n}
  • xiN(μ,σ2)x_i \sim N(\mu, \sigma^2) / σ2\sigma^2은 고정값으로 가정한다.
  • 우도 함수 (Likelihood)

    • μ\mu가 주어졌을 때, xx가 관측될 확률(우도 함수)는 다음과 같다

      P(xμ)=i=1n12πσ2exp((xiμ)22σ2)P(x \mid \mu) = \prod_{i=1}^n {1\over \sqrt {2\pi \sigma^2}}exp(-{(x_i-\mu)^2\over 2\sigma^2})

    • 상수항을 무시하고, 정리하면 :

      P(xμ)exp(12σ2i=1n(xi22xiμ+μ2))(1)P(x \mid \mu) \propto exp(-{1\over 2\sigma^2}\sum_{i=1}^n(x_i^2-2x_i\mu + \mu^2))\cdots (1)


  • 사전 분포 (Prior)

    • 사전 분포는 μ\muμ0\mu_0 주변에 있을 것 같다는 주관적 믿음을 나타내며
      불확실성의 정도를 τ2\tau^2으로 표현한다.

      μN(μ0,τ2)\mu \sim N(\mu_0, \tau^2)

    • 이를 수식으로 나타내면 :

      P(μ)=12πτ2exp((μμ0)22τ2)P(\mu) = {1\over \sqrt{2\pi\tau^2}}exp(-{(\mu - \mu_0)^2 \over 2\tau^2})

    • 상수항을 무시하고 정리하면 :

      P(μ)exp(12τ2(μ22μμ0+μ02))(2)P(\mu) \propto exp(-{1\over 2\tau^2}(\mu^2 - 2\mu \mu_0 + \mu_0^2)) \cdots (2)


  • 사후 분포 (Posterior)

    • 베이즈 정리에 의해 :

      P(μx)P(xμ)P(μ)(3)P(\mu \mid x) \propto P(x|\mu)\cdot P(\mu) \cdots (3)

    • (3)(3)의 식에 (1),(2)(1), (2)을 대입하면 :

      P(μx)exp(12σ2i=1n(xi22xiμ+μ2))exp(12τ2(μ22μμ0+μ02))P(\mu \mid x) \propto exp(-{1\over 2\sigma^2}\sum_{i=1}^n(x_i^2-2x_i\mu + \mu^2)) \cdot exp(-{1\over 2\tau^2}(\mu^2 - 2\mu \mu_0 + \mu_0^2))

    • 위 식을 정리하면 :

      P(μx)exp[12σ2i=1n(xi22xiμ+μ2)12τ2(μ22μμ0+μ02)]P(\mu \mid x) \propto exp[-{1\over 2\sigma^2}\sum_{i=1}^n(x_i^2-2x_i\mu + \mu^2) -{1\over 2\tau^2}(\mu^2 - 2\mu \mu_0 + \mu_0^2)]

    • 이때, 확률 변수인 μ\mu가 관여하는 항만 유지하면 :

      P(μx)exp[12σ2(nμ22μi=1nxi)12τ2(μ22μμ0)]                            =exp[12(nμ2σ2)2μnxˉσ2+μ2τ22μμ0τ2]                            =exp[12(μ2(nσ2+1τ2)2μ(nxˉσ2+μ0τ2))](4)P(\mu \mid x) \propto exp[-{1\over 2\sigma^2}(n\mu^2-2\mu\sum_{i=1}^n x_i) -{1\over 2\tau^2}(\mu^2 - 2\mu \mu_0)]\\\;\;\;\;\;\;\;\;\;\;\;\;\;\;= exp[-{1\over 2}({n\mu^2\over \sigma^2})-2\mu{n\bar x \over \sigma^2}+{\mu^2\over \tau^2}-{2\mu\mu_0\over \tau^2}]\\\;\;\;\;\;\;\;\;\;\;\;\;\;\;=exp[-{1\over 2}(\mu^2({n\over \sigma^2}+{1\over \tau^2}) -2\mu({n\bar x \over \sigma^2} + {\mu_0 \over \tau^2}))]\cdots (4)

    • (4)(4)의 식을 일반적인 정규분포의 지수 꼴로 변환하면,

      일반적인 정규분포의 지수 꼴 : exp(12a(μb)2)N(b,1a)exp(-{1\over 2}a(\mu - b)^2) \propto N(b, {1\over a})

      exp[12(nτ2+σ2σ2τ2)(μnτ2xˉ+σ2μ0nτ2+σ2)2]exp[-{1\over 2}\cdot({n\tau^2 + \sigma^2\over \sigma^2\tau^2})\cdot(\mu - {n\tau^2\bar x + \sigma^2\mu_0\over n\tau^2 + \sigma^2})^2]

      P(μx)N(nτ2xˉ+σ2μ0nτ2+σ2,σ2τ2nτ2+σ2)∴ P(\mu \mid x) \propto N({n\tau^2\bar x + \sigma^2\mu_0 \over n\tau^2+\sigma^2}, {\sigma^2\tau^2 \over n\tau^2 + \sigma^2})


해석 : 베이지안 평균 추정값(사후 평균)은 "사전 정보"와 "데이터"의 가중평균

  • 사후 평균을 정리하면 다음과 같다 :

    μn=σ2nτ2+σ2μ0+nτ2nτ2+σ2xˉ\mu_n = {\sigma^2\over n\tau^2+\sigma^2}\cdot \mu_0 + {n\tau^2\over n\tau^2+\sigma^2}\cdot \bar x

    • 이 식은, 우리가 μ\mu에 대해 믿고 있던 사전 정보(μ0\mu_0)에 관측한 정보인 데이터(xˉ\bar x)를 고려하여 믿음을 업데이트한 결과이다.

      • 사전 정보의 불확실성이 작아질수록(τ\tau ↓) → μ0\mu_0에 더 큰 비중

      • 데이터가 많아질수록 (nn ↑) → xˉ\bar x에 더 큰 비중

  • 사후 평균의 불확실성은 사후 분산(τn2\tau_n^2)으로 측정할 수 있으며, 다음과 같은 특징을 가진다.

    • τn2=σ2τ2nτ2+σ2\tau_n^2 = {\sigma^2\tau^2 \over n\tau^2 + \sigma^2}

      • 사전 정보의 불확실성이 작아질수록(τ\tau ↓) → 사후 분산이 작아진다

      • 데이터가 많아질수록 (nn ↑) → 사후 분산이 작아진다

profile
개인 공부용 블로그입니다

0개의 댓글