베이지안

한상우·2025년 3월 26일

스터디

목록 보기

15/23

빈도주의 확률 VS 베이지안 확률

🎲 빈도주의(Frequentist) 확률 :

🧠 베이지안(Bayesian) 확률 :

✅ 주요 차이점 정리

빈도주의가 객관적이고 반복 가능한 실험에서 강점을 가진다면, 베이지안은 정보가 제한된 상황, 사건이 한 번만 일어나는 상황, 사전 지식이 중요한 상황에서 강력한 도구가 된다.
베이지안에서는 단순히 "확률이 0.6이다"라고 말하는 대신, 그 확률이 어떤 믿음을 바탕으로 했는지, 그리고 그 믿음은 어떻게 바뀌는지를 함께 고민할 수 있다.

베이지안 기초 확률 개념

빈도주의에서 배운 개념(곱의 법칙, 합의 법칙)을 수학적으로는 동일하게 사용할 수 있지만, 해석 방식과 활용 목적이 다르다.

베이지안에서는 모든 확률을 조건부 확률로 해석한다 (전체 확률의 법칙 기반)

$P(A) = \sum_i P(A \mid I_i)\cdot P(I_i)$
- 베이지안에서는 확률 $P(A)$ 도 사실은 $P(A \mid I)$ 처럼 어떤 배경 지식 $I$ 하에서 정의된 조건부 확률로 간주한다.
- 즉, 무조건적인 확률처럼 보이는 것도 실제로는 어떤 정보가 전제된 해석이다.

독립 사건
- 일반적 수학 표현 : $P(A \cap B) = P(A)\cdot P(B)$
- 베이지안 해석 : 정보 $B$ 가 $A$ 에 대한 믿음을 바꾸지 않을 때, A와 B는 독립이다.
  
  $P(A \mid B,I) = P(A \mid I)$

종속 사건 :
- 베이지안 해석 : 정보가 서로 영향을 주는 관계. 즉, $B$ 를 알게 되면 $A$ 에 대한 믿음이 바뀌는 경우.

배반 사건 :
- 일반적 수학 표현 : $A \cap B = \emptyset \Rightarrow P(A \cap B) = 0$
- 베이지안 해석 : 정보적 배타성으로 해석한다
  즉, 가능한 서로 다른 가설 A와 B 중 하나만 참일 수 있다는 믿음을 의미한다.

베이즈 정리

아직 어떤 데이터 𝐷도 관측하지 않았을 때, 가설 𝐻의 그럴듯함을 $P(H)$ 로 표현한다.

사건 𝐷에 대한 정보를 관측하게 되었을 때, 이 정보를 바탕으로 $P(H)$ 를 갱신할 수 있다.

✅ $P(H|D) = {P(D|H)P(H)\over P(D)}$

항목	의미	해석
$P(H)$	`Prior`	$D$ 를 고려하지 않았을 때 $H$ 가 성립할 것이라고 믿는 정도(사전 확률)
$P(D)$	`Evidence`	$D$ 가 관측될 전체 확률(정규화 상수 역할)
$P(D\mid H)$	`Likelihood`	$H$ 가 옳다고 가정했을 때, $D$ 가 관측될 확률
$P(H\mid D)$	`Posterior`	$D$ 가 주어졌을 때, $H$ 가 옳을 확률(업데이트된 사후 확률)

우리가 기존에 $H$ 에 대한 지식이 있다면?
- 최대한 공정하게 $P(H)$ 를 정한 뒤, 새로운 정보 $D$ 를 반영하여 기존 지식을 업데이트 할 수 있다.
우리가 기존에 $H$ 에 대한 지식이 없다면?
- 무지의 상태(ex. $P(H) = 0.5$ )에서 출발하고, $D$ 를 통해 $H$ 의 가능성을 점진적으로 업데이트할 수 있다.

베이지안 추정 (Bayesian estimation)

빈도주의 추정에서는 모수를 고정된 값으로 보며, 그 최적값을 계산한다(optimize)

베이지안 추정에서는 모수를 확률변수로 보며, 사후 분포로부터 모수의 확률 분포를 추정한다.

베이지안 추정 - 평균

관측값 : $x = {x_1, x_2, ..., x_n}$

$x_i \sim N(\mu, \sigma^2)$ / $\sigma^2$ 은 고정값으로 가정한다.

우도 함수 (Likelihood)
- $\mu$ 가 주어졌을 때, $x$ 가 관측될 확률(우도 함수)는 다음과 같다
  
  $P(x \mid \mu) = \prod_{i=1}^n {1\over \sqrt {2\pi \sigma^2}}exp(-{(x_i-\mu)^2\over 2\sigma^2})$
- 상수항을 무시하고, 정리하면 :
  
  $P(x \mid \mu) \propto exp(-{1\over 2\sigma^2}\sum_{i=1}^n(x_i^2-2x_i\mu + \mu^2))\cdots (1)$

사전 분포 (Prior)
- 사전 분포는 $\mu$ 가 $\mu_0$ 주변에 있을 것 같다는 주관적 믿음을 나타내며
  불확실성의 정도를 $\tau^2$ 으로 표현한다.
  
  $\mu \sim N(\mu_0, \tau^2)$
- 이를 수식으로 나타내면 :
  
  $P(\mu) = {1\over \sqrt{2\pi\tau^2}}exp(-{(\mu - \mu_0)^2 \over 2\tau^2})$
- 상수항을 무시하고 정리하면 :
  
  $P(\mu) \propto exp(-{1\over 2\tau^2}(\mu^2 - 2\mu \mu_0 + \mu_0^2)) \cdots (2)$

사후 분포 (Posterior)
- 베이즈 정리에 의해 :
  
  $P(\mu \mid x) \propto P(x|\mu)\cdot P(\mu) \cdots (3)$
- $(3)$ 의 식에 $(1), (2)$ 을 대입하면 :
  
  $P(\mu \mid x) \propto exp(-{1\over 2\sigma^2}\sum_{i=1}^n(x_i^2-2x_i\mu + \mu^2)) \cdot exp(-{1\over 2\tau^2}(\mu^2 - 2\mu \mu_0 + \mu_0^2))$
- 위 식을 정리하면 :
  
  $P(\mu \mid x) \propto exp[-{1\over 2\sigma^2}\sum_{i=1}^n(x_i^2-2x_i\mu + \mu^2) -{1\over 2\tau^2}(\mu^2 - 2\mu \mu_0 + \mu_0^2)]$
- 이때, 확률 변수인 $\mu$ 가 관여하는 항만 유지하면 :
  
  $P(\mu \mid x) \propto exp[-{1\over 2\sigma^2}(n\mu^2-2\mu\sum_{i=1}^n x_i) -{1\over 2\tau^2}(\mu^2 - 2\mu \mu_0)]\\\;\;\;\;\;\;\;\;\;\;\;\;\;\;= exp[-{1\over 2}({n\mu^2\over \sigma^2})-2\mu{n\bar x \over \sigma^2}+{\mu^2\over \tau^2}-{2\mu\mu_0\over \tau^2}]\\\;\;\;\;\;\;\;\;\;\;\;\;\;\;=exp[-{1\over 2}(\mu^2({n\over \sigma^2}+{1\over \tau^2}) -2\mu({n\bar x \over \sigma^2} + {\mu_0 \over \tau^2}))]\cdots (4)$
- $(4)$ 의 식을 일반적인 정규분포의 지수 꼴로 변환하면,
  
  일반적인 정규분포의 지수 꼴 : $exp(-{1\over 2}a(\mu - b)^2) \propto N(b, {1\over a})$
  
  $exp[-{1\over 2}\cdot({n\tau^2 + \sigma^2\over \sigma^2\tau^2})\cdot(\mu - {n\tau^2\bar x + \sigma^2\mu_0\over n\tau^2 + \sigma^2})^2]$
  
  $∴ P(\mu \mid x) \propto N({n\tau^2\bar x + \sigma^2\mu_0 \over n\tau^2+\sigma^2}, {\sigma^2\tau^2 \over n\tau^2 + \sigma^2})$

✅ 해석 : 베이지안 평균 추정값(사후 평균)은 "사전 정보"와 "데이터"의 가중평균

사후 평균을 정리하면 다음과 같다 :

$\mu_n = {\sigma^2\over n\tau^2+\sigma^2}\cdot \mu_0 + {n\tau^2\over n\tau^2+\sigma^2}\cdot \bar x$
- 이 식은, 우리가 $\mu$ 에 대해 믿고 있던 사전 정보( $\mu_0$ )에 관측한 정보인 데이터( $\bar x$ )를 고려하여 믿음을 업데이트한 결과이다.
  - 사전 정보의 불확실성이 작아질수록( $\tau$ ↓) → $\mu_0$ 에 더 큰 비중
  - 데이터가 많아질수록 ( $n$ ↑) → $\bar x$ 에 더 큰 비중
사후 평균의 불확실성은 사후 분산( $\tau_n^2$ )으로 측정할 수 있으며, 다음과 같은 특징을 가진다.
- $\tau_n^2 = {\sigma^2\tau^2 \over n\tau^2 + \sigma^2}$
  - 사전 정보의 불확실성이 작아질수록( $\tau$ ↓) → 사후 분산이 작아진다
  - 데이터가 많아질수록 ( $n$ ↑) → 사후 분산이 작아진다

개인 공부용 블로그입니다