Bayesian Linear Regression

한상우·2025년 4월 16일

스터디

목록 보기

16/23

베이지안 선형 회귀

모델 : $y = X\beta + \epsilon$

$y \in \mathbb R^n :$ 실제 관측값 벡터 (종속 변수)

$X \in \mathbb R^{n \times p} :$ 설명 변수 행렬 (독립 변수)

$\beta \in \mathbb R^p :$ 회귀 계수 (모수, 확률 변수)

$\epsilon \sim \mathcal N(0, \sigma^2I)$ : 표준 오차

✅ 사전 분포 (Prior)

$\beta \sim \mathcal N(\mu_0, \Sigma_0)$
- 강한 사전 지식이 없을 때, 최대한 편향을 배제 (weakly informative prior) :
  - $\mu_0 = 0$ : 회귀 계수들은 0을 중심으로 분포한다고 가정
    → 선형 관계가 없을 수도 있다는 중립적 입장
  - $\Sigma_0 = \tau^2I$ : 각 계수가 독립이며, 동일한 불확실성을 갖는다고 가정
    → 특정 독립변수에 더 큰 중요성을 부여하지 않음
- 강한 사전 지식을 활용 (strong prior) :
  
  "나는 $\beta_3$ 가 약 0.8이라고 강하게 믿는다"
  - $\beta_3$ 의 평균을 0.8(믿는 값)로 설정 → $\mu_0 = [0, 0, 0.8]$
  - 공분산 행렬에서 $\beta_3$ 의 분산(불확실성)을 작게 설정 → $\Sigma_0 = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0.001 \end{pmatrix}$

🧠 사전 지식으로 빈도주의 추정값(예: OLS 회귀계수)을 사용하면 베이지안 추론과 충돌할까?

전혀 문제 없으며, 이렇게 빈도주의 추정 결과를 사전 분포로 활용하는 방식을 흔히
경험적 베이지안 접근(Empirical Bayes)이라고 한다.

베이지안 추론에서 사전 분포는 "믿음(belief)"을 수학적으로 표현한 것으로,
이 믿음은 [과거의 실험 결과, 도메인 지식, 빈도주의 추정값] 등 어떤 정보에도 기반할 수 있다.
엄밀한 베이지안은 사전 정보와 데이터가 독립이라고 전제하지만,
현실에서는 데이터 기반으로 사전 분포를 구성하는 경우도 많으며,
이는 실용적 베이지안 추론에서 널리 사용된다고 한다.
결국, 베이지안 추론의 핵심은
→ "사전 정보가 어디서 왔느냐" 보다
→ "믿음이 어떻게 업데이트되고"
→ "그 결과 사후 분포가 어떻게 형성되는지"에 있다.

✅ 우도 함수 (Likelihood)
- $y = X\beta + \epsilon$ 라는 모델을 설정한다.
- 오차항의 정규성 가정에 의해 $y$ 에 대한 확률 분포 가정, 즉 $y \sim \mathcal (X\beta, \sigma^2I)$ 이 동반된다.
- 이때 확률변수 $\beta$ 가 주어졌을 때 $y$ 가 관측될 확률(=우도)을 계산한 식,
  우도 함수는 다음과 같다.
  
  $P(y|X,\beta) = \mathcal N(y | X\beta, \sigma^2I)$

✅ 사후 분포 (Posterior)
- 베이즈 정리에 따라 :
  
  $P(\beta | X, y) \propto P(y|X, \beta)\cdot P(\beta)$
- 사전 분포 :
  
  $P(\beta) \propto exp(-{1\over 2}(\beta - \mu_0)^T\Sigma_0^{-1}(\beta - \mu_0))$
- 우도 함수 :
  
  $P(y|X,\beta) \propto exp(-{1\over 2\sigma^2}(y-X\beta)^T(y-X\beta))$
- 사전 분포와 우도 함수 모두 정규분포 형태이기 때문에, 곱해도 정규분포의 형태가 유지된다.
  즉, 사후 분포도 정규분포가 된다
  
  Conjugate Prior
  
  $P(\beta | y, X) \propto exp(-{1\over 2\sigma^2}(y - X\beta)^T(y-X\beta))\cdot exp(-{1\over 2}(\beta - \mu_0)^T\Sigma_0^{-1}(\beta - \mu_0)) \\ \; \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \propto exp(-{1\over 2}[(\beta - \mu_0)^T\Sigma_0^{-1}(\beta - \mu_0) + {1\over \sigma^2}(y-X\beta)^T(y-X\beta)])$
- 위 식을 $\beta$ 에 대한 이차식으로 다시 쓰고,
  정규분포의 완전제곱식 형태로 정리한다
  
  $P(\beta | y, X) \propto exp(-{1\over 2}(\beta - \mu_n)^T\Sigma_n^{-1}(\beta - \mu_n))$
- 결과적으로, 사후 분포는 다음과 같은 정규분포 형태를 따른다.
  
  $\beta|y,X \sim \mathcal N(\mu_n, \Sigma_n)$
  
  $\;\;\;\mu_n = \Sigma_n({1\over \sigma^2}X^Ty + \Sigma_0^{-1}\mu_0)$ : 사후 평균
  
  $\;\;\;\Sigma_n = ({1\over \sigma^2}X^TX + \Sigma_0^{-1})^{-1}$ : 사후 공분산

사후 공분산의 의미

$\Sigma_n = ({1\over \sigma^2}X^TX + \Sigma_0^{-1})^{-1}$

데이터 정확도
- 디자인 행렬의 자기곱 $X^TX$ 은 설명 변수들의 공분산 구조이며, 데이터 자체가 회귀 계수 $\beta$ 에 대해 말해줄 수 있는 정보의 양을 의미한다.
- 오차항의 분산 $\sigma^2$ 은 노이즈의 크기, 즉 데이터의 신뢰도를 의미한다.
- 따라서 ${1\over \sigma^2}X^TX$ 은 데이터가 회귀 계수 $\beta$ 에 대해 제공하는 정확도를 수학적으로 정량화한 행렬이 된다.

사전 정보의 정확도
- 사전 분포의 공분산 행렬 $\Sigma_0$ 은 각 회귀 계수 $\beta_j$ 가 얼마나 넓게 퍼져 있다고 믿는가를 표현하는, 회귀계수의 불확실성을 정량화한 행렬이다.
- 이때, 역행렬 $\Sigma_0^{-1}$ 은 정확도 행렬(precision matrix)이라고 부르며, 사전 분포로 설정한 각 회귀 계수에 대해 우리가 그 값을 얼마나 강하게 믿는지를 정량화한 행렬이된다.

사후 공분산 : 최종적인 불확실성(uncertainty)
- 사후 공분산의 구조를 글로 표현하면 "(데이터 정확도 + 사전 정보의 정확도)의 역행렬"이다.
- 이는 총 정확도의 역수이며,
  회귀 계수 $\beta$ 에 대한 최종적인 불확실성을 나타내는 행렬이 된다.

사후 평균의 의미

사후 평균을 변형하면,

$\mu_n = \Sigma_n({1\over \sigma^2}IX^Ty + \Sigma_0^{-1}\mu_0) \\ \;\;\;\;\;= \Sigma_n({1\over \sigma^2}X^TX(X^TX)^{-1}X^Ty + \Sigma_0^{-1}\mu_0)$
이때, $(X^TX)^{-1}X^Ty$ 는 OLS에서의 회귀계수이다. 따라서, 이를 $\mu_{ols}$ 로 표현하면,

$\mu_n = \Sigma_n({1 \over \sigma^2}X^TX\mu_{ols} + \Sigma_0^{-1}\mu_0)$
위 식에 사후 공분산을 대입하면, 정확도에 기반한 베이지안적 가중 평균형태가 된다.

$\mu_n = ({1\over \sigma^2}X^TX + \Sigma_0^{-1})^{-1}({1 \over \sigma^2}X^TX\mu_{ols} + \Sigma_0^{-1}\mu_0)$

이를 더 직관적으로 이해하기 위해 스칼라 형태의 의사 가중 평균으로 표현하면,

$\mu_n = {precision_{data} \over precision_{all}}\cdot \mu_{ols} + {precision_{prior} \over precision_{all}}\cdot \mu_{0}$

즉, 데이터 기반 추정값과 사전 평균이 정보량(=정확도)에 따라 가중합되는 구조이다.

✅ 사후 평균에 영향을 주는 주요 파라미터 정리

파라미터	변화 방향	$\mu_{\text{ols}}$ 비중	$\mu_0$ 비중	해석
$\sigma^2$	⬇	⬆	⬇	데이터가 더 신뢰할 만해져서 $\mu_{\text{ols}}$ 의 영향력 증가
$\sigma^2$	⬆	⬇	⬆	데이터가 노이즈에 묻힘 → 사전 정보의 영향력 증가
$\Sigma_0$	⬇	⬇	⬆	사전 정보에 대한 신뢰도 증가 → $\mu_0$ 중심으로 수렴
$\Sigma_0$	⬆	⬆	⬇	사전 정보 신뢰도 낮음 → 데이터 기반 추정에 의존
$X^T X$	⬇	⬇	⬆	설명 변수의 정보량 부족 → 사전 정보의 상대적 비중 증가
$X^T X$	⬆	⬆	⬇	설명 변수가 잘 구성됨 → $\mu_{\text{ols}}$ 의 영향력 확대

MAP(Maximum A Posteriori)

베이지안 추론에서는 $\beta$ 에 대해 사후 분포 전체를 다루는 것이 기본이지만,
경우에 따라 하나의 대표값만 사용하는 점추정 방식이 유용할 수 있다 :

실용적으로 하나의 값을 써야 할 때

계산 자원이 제한된 경우

단순 추정만 필요할 경우

MAP는 사후 분포 $P(\beta | y, X)$ 에서 가장 그럴듯한 모수값을 하나 골라내는 방식이다.

✅ MAP 정의

$\hat \beta_{MAP} = \text{arg }\text{max}_{\beta} P(\beta|y, X)$

베이즈 정리를 적용하면,

$\hat \beta_{MAP} = \text{arg }\text{max}_{\beta}[log P(y|X,\beta) + log P(\beta)]$

즉, MAP는 로그 우도 + 로그 사전 확률의 합을 최대화하는 문제이다.

✅ 로그 우도 항
- 정규성 가정 하에 : $y | X, \beta \sim \mathcal N(X\beta, \sigma^2I)$
  
  로그 우도는 다음과 같다 :
  
  $logP(y | X, \beta) = -{1\over 2\sigma^2}||y-X\beta||^2 + \text{const}$
✅ 사전 분포 항
- 사전 분포가 $\beta \sim \mathcal N(\mu_0, \tau^2I)$ 라고 가정하면,
  
  로그 사전 확률은 다음과 같다 :
  
  $log P(\beta) = -{1\over 2\tau^2}||\beta - \mu_0||^2 + \text{const}$

✅ MAP 손실 함수

따라서 MAP는 다음과 같은 목적 함수를 최소화하는 최적화 문제로 표현된다:

$\hat \beta_{MAP} = \text{arg }\text{min}_{\beta}[{1\over 2\sigma^2}||y-X\beta||^2 + {1\over 2\tau^2}||\beta - \mu_0||^2]$

항	의미
$∥y−Xβ∥$	예측값과 실제값 사이의 차이 (데이터 적합도)
$∥β−μ_0∥$	회귀 계수가 사전 지식 $\mu_0$ 에서 벗어나는 정도
${1\over \tau^2}$	얼마나 강하게 $\beta$ 를 $μ0$ 쪽으로 당길 것인가 = 정규화 상수

결과적으로 MAP 추정은,
“데이터에 얼마나 맞추고 싶냐”와 “사전 정보를 얼마나 따르고 싶냐”
사이에서 정규화 상수를 중심으로 균형을 잡는 최적화 과정이라고 볼 수 있다.

MAP 추정의 케이스별 특성 요약

케이스	조건	MAP 추정의 특징	관련 모델 또는 효과
Weakly Informative Prior	$\mu_0 = 0$ , $\tau^2$ 큼	계수를 0에 가까이 정규화	Ridge 회귀 (L2)
Strong Prior	$\mu_0 \neq 0$ , $\tau^2$ 작음	계수를 $\mu_0$ 방향으로 강하게 당김	Prior 중심 추정, 오버라이딩 효과
사후 정규분포	사전과 우도가 모두 정규	MAP = 사후 평균	MAP = 평균 = 최빈값
사후 비정규분포	사전 또는 우도가 비대칭	MAP ≠ 평균, 꼬리 영향 적음	Robust한 추정

한상우

개인 공부용 블로그입니다

이전 포스트

베이지안

다음 포스트

Bayesian Linear Regression

스터디

베이지안 선형 회귀

MAP(Maximum A Posteriori)

MAP 추정의 케이스별 특성 요약

베이지안

Naive Bayesian Classifier

0개의 댓글