Bayesian Linear Regression

한상우·2025년 4월 16일

스터디

목록 보기
16/23

베이지안 선형 회귀

  • 모델 : y=Xβ+ϵy = X\beta + \epsilon
    • yRn:y \in \mathbb R^n : 실제 관측값 벡터 (종속 변수)
    • XRn×p:X \in \mathbb R^{n \times p} : 설명 변수 행렬 (독립 변수)
    • βRp:\beta \in \mathbb R^p : 회귀 계수 (모수, 확률 변수)
    • ϵN(0,σ2I)\epsilon \sim \mathcal N(0, \sigma^2I) : 표준 오차
  • 사전 분포 (Prior)

    βN(μ0,Σ0)\beta \sim \mathcal N(\mu_0, \Sigma_0)

    • 강한 사전 지식이 없을 때, 최대한 편향을 배제 (weakly informative prior) :

      • μ0=0\mu_0 = 0 : 회귀 계수들은 0을 중심으로 분포한다고 가정
        → 선형 관계가 없을 수도 있다는 중립적 입장

      • Σ0=τ2I\Sigma_0 = \tau^2I : 각 계수가 독립이며, 동일한 불확실성을 갖는다고 가정
        → 특정 독립변수에 더 큰 중요성을 부여하지 않음

    • 강한 사전 지식을 활용 (strong prior) :

      "나는 β3\beta_3가 약 0.8이라고 강하게 믿는다"

      • β3\beta_3의 평균을 0.8(믿는 값)로 설정 → μ0=[0,0,0.8]\mu_0 = [0, 0, 0.8]

      • 공분산 행렬에서 β3\beta_3의 분산(불확실성)을 작게 설정 → Σ0=(100010000.001)\Sigma_0 = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0.001 \end{pmatrix}


🧠 사전 지식으로 빈도주의 추정값(예: OLS 회귀계수)을 사용하면 베이지안 추론과 충돌할까?

  • 전혀 문제 없으며, 이렇게 빈도주의 추정 결과를 사전 분포로 활용하는 방식을 흔히
    경험적 베이지안 접근(Empirical Bayes)이라고 한다.
  • 베이지안 추론에서 사전 분포는 "믿음(belief)"을 수학적으로 표현한 것으로,
    이 믿음은 [과거의 실험 결과, 도메인 지식, 빈도주의 추정값] 등 어떤 정보에도 기반할 수 있다.

  • 엄밀한 베이지안은 사전 정보와 데이터가 독립이라고 전제하지만,
    현실에서는 데이터 기반으로 사전 분포를 구성하는 경우도 많으며,
    이는 실용적 베이지안 추론에서 널리 사용된다고 한다.

  • 결국, 베이지안 추론의 핵심은
    → "사전 정보가 어디서 왔느냐" 보다
    → "믿음이 어떻게 업데이트되고"
    → "그 결과 사후 분포가 어떻게 형성되는지"에 있다.


  • 우도 함수 (Likelihood)

    • y=Xβ+ϵy = X\beta + \epsilon라는 모델을 설정한다.

    • 오차항의 정규성 가정에 의해 yy에 대한 확률 분포 가정, 즉 y(Xβ,σ2I)y \sim \mathcal (X\beta, \sigma^2I)이 동반된다.

    • 이때 확률변수 β\beta가 주어졌을 때 yy가 관측될 확률(=우도)을 계산한 식,
      우도 함수는 다음과 같다.

      P(yX,β)=N(yXβ,σ2I)P(y|X,\beta) = \mathcal N(y | X\beta, \sigma^2I)


  • 사후 분포 (Posterior)

    • 베이즈 정리에 따라 :

      P(βX,y)P(yX,β)P(β)P(\beta | X, y) \propto P(y|X, \beta)\cdot P(\beta)

    • 사전 분포 :

      P(β)exp(12(βμ0)TΣ01(βμ0))P(\beta) \propto exp(-{1\over 2}(\beta - \mu_0)^T\Sigma_0^{-1}(\beta - \mu_0))

    • 우도 함수 :

      P(yX,β)exp(12σ2(yXβ)T(yXβ))P(y|X,\beta) \propto exp(-{1\over 2\sigma^2}(y-X\beta)^T(y-X\beta))

    • 사전 분포와 우도 함수 모두 정규분포 형태이기 때문에, 곱해도 정규분포의 형태가 유지된다.
      즉, 사후 분포도 정규분포가 된다

      Conjugate Prior

      P(βy,X)exp(12σ2(yXβ)T(yXβ))exp(12(βμ0)TΣ01(βμ0))                                  exp(12[(βμ0)TΣ01(βμ0)+1σ2(yXβ)T(yXβ)])P(\beta | y, X) \propto exp(-{1\over 2\sigma^2}(y - X\beta)^T(y-X\beta))\cdot exp(-{1\over 2}(\beta - \mu_0)^T\Sigma_0^{-1}(\beta - \mu_0)) \\ \; \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \propto exp(-{1\over 2}[(\beta - \mu_0)^T\Sigma_0^{-1}(\beta - \mu_0) + {1\over \sigma^2}(y-X\beta)^T(y-X\beta)])

    • 위 식을 β\beta에 대한 이차식으로 다시 쓰고,
      정규분포의 완전제곱식 형태로 정리한다

      P(βy,X)exp(12(βμn)TΣn1(βμn))P(\beta | y, X) \propto exp(-{1\over 2}(\beta - \mu_n)^T\Sigma_n^{-1}(\beta - \mu_n))

    • 결과적으로, 사후 분포는 다음과 같은 정규분포 형태를 따른다.

      βy,XN(μn,Σn)\beta|y,X \sim \mathcal N(\mu_n, \Sigma_n)

            μn=Σn(1σ2XTy+Σ01μ0)\;\;\;\mu_n = \Sigma_n({1\over \sigma^2}X^Ty + \Sigma_0^{-1}\mu_0) : 사후 평균

            Σn=(1σ2XTX+Σ01)1\;\;\;\Sigma_n = ({1\over \sigma^2}X^TX + \Sigma_0^{-1})^{-1} : 사후 공분산


사후 공분산의 의미

  • Σn=(1σ2XTX+Σ01)1\Sigma_n = ({1\over \sigma^2}X^TX + \Sigma_0^{-1})^{-1}
  • 데이터 정확도

    • 디자인 행렬의 자기곱 XTXX^TX은 설명 변수들의 공분산 구조이며, 데이터 자체가 회귀 계수 β\beta에 대해 말해줄 수 있는 정보의 양을 의미한다.

    • 오차항의 분산 σ2\sigma^2은 노이즈의 크기, 즉 데이터의 신뢰도를 의미한다.

    • 따라서 1σ2XTX{1\over \sigma^2}X^TX은 데이터가 회귀 계수 β\beta에 대해 제공하는 정확도를 수학적으로 정량화한 행렬이 된다.


  • 사전 정보의 정확도

    • 사전 분포의 공분산 행렬 Σ0\Sigma_0은 각 회귀 계수 βj\beta_j가 얼마나 넓게 퍼져 있다고 믿는가를 표현하는, 회귀계수의 불확실성을 정량화한 행렬이다.

    • 이때, 역행렬 Σ01\Sigma_0^{-1}은 정확도 행렬(precision matrix)이라고 부르며, 사전 분포로 설정한 각 회귀 계수에 대해 우리가 그 값을 얼마나 강하게 믿는지를 정량화한 행렬이된다.


  • 사후 공분산 : 최종적인 불확실성(uncertainty)

    • 사후 공분산의 구조를 글로 표현하면 "(데이터 정확도 + 사전 정보의 정확도)의 역행렬"이다.

    • 이는 총 정확도의 역수이며,
      회귀 계수 β\beta에 대한 최종적인 불확실성을 나타내는 행렬이 된다.

사후 평균의 의미

  • 사후 평균을 변형하면,

    μn=Σn(1σ2IXTy+Σ01μ0)          =Σn(1σ2XTX(XTX)1XTy+Σ01μ0)\mu_n = \Sigma_n({1\over \sigma^2}IX^Ty + \Sigma_0^{-1}\mu_0) \\ \;\;\;\;\;= \Sigma_n({1\over \sigma^2}X^TX(X^TX)^{-1}X^Ty + \Sigma_0^{-1}\mu_0)

  • 이때, (XTX)1XTy(X^TX)^{-1}X^Ty는 OLS에서의 회귀계수이다. 따라서, 이를 μols\mu_{ols}로 표현하면,

    μn=Σn(1σ2XTXμols+Σ01μ0)\mu_n = \Sigma_n({1 \over \sigma^2}X^TX\mu_{ols} + \Sigma_0^{-1}\mu_0)

  • 위 식에 사후 공분산을 대입하면, 정확도에 기반한 베이지안적 가중 평균형태가 된다.

    μn=(1σ2XTX+Σ01)1(1σ2XTXμols+Σ01μ0)\mu_n = ({1\over \sigma^2}X^TX + \Sigma_0^{-1})^{-1}({1 \over \sigma^2}X^TX\mu_{ols} + \Sigma_0^{-1}\mu_0)

  • 이를 더 직관적으로 이해하기 위해 스칼라 형태의 의사 가중 평균으로 표현하면,

    μn=precisiondataprecisionallμols+precisionpriorprecisionallμ0\mu_n = {precision_{data} \over precision_{all}}\cdot \mu_{ols} + {precision_{prior} \over precision_{all}}\cdot \mu_{0}

    즉, 데이터 기반 추정값과 사전 평균이 정보량(=정확도)에 따라 가중합되는 구조이다.


✅ 사후 평균에 영향을 주는 주요 파라미터 정리

파라미터변화 방향μols\mu_{\text{ols}} 비중μ0\mu_0 비중해석
σ2\sigma^2데이터가 더 신뢰할 만해져서 μols\mu_{\text{ols}}의 영향력 증가
σ2\sigma^2데이터가 노이즈에 묻힘 → 사전 정보의 영향력 증가
Σ0\Sigma_0사전 정보에 대한 신뢰도 증가 → μ0\mu_0 중심으로 수렴
Σ0\Sigma_0사전 정보 신뢰도 낮음 → 데이터 기반 추정에 의존
XTXX^T X설명 변수의 정보량 부족 → 사전 정보의 상대적 비중 증가
XTXX^T X설명 변수가 잘 구성됨 → μols\mu_{\text{ols}}의 영향력 확대

MAP(Maximum A Posteriori)

  • 베이지안 추론에서는 β\beta에 대해 사후 분포 전체를 다루는 것이 기본이지만,
    경우에 따라 하나의 대표값만 사용하는 점추정 방식이 유용할 수 있다 :
    • 실용적으로 하나의 값을 써야 할 때
    • 계산 자원이 제한된 경우
    • 단순 추정만 필요할 경우
  • MAP는 사후 분포 P(βy,X)P(\beta | y, X)에서 가장 그럴듯한 모수값을 하나 골라내는 방식이다.
  • ✅ MAP 정의

    β^MAP=arg maxβP(βy,X)\hat \beta_{MAP} = \text{arg }\text{max}_{\beta} P(\beta|y, X)

    베이즈 정리를 적용하면,

    β^MAP=arg maxβ[logP(yX,β)+logP(β)]\hat \beta_{MAP} = \text{arg }\text{max}_{\beta}[log P(y|X,\beta) + log P(\beta)]

    즉, MAP는 로그 우도 + 로그 사전 확률의 합을 최대화하는 문제이다.


  • ✅ 로그 우도 항

    • 정규성 가정 하에 : yX,βN(Xβ,σ2I)y | X, \beta \sim \mathcal N(X\beta, \sigma^2I)

      로그 우도는 다음과 같다 :

      logP(yX,β)=12σ2yXβ2+constlogP(y | X, \beta) = -{1\over 2\sigma^2}||y-X\beta||^2 + \text{const}

  • ✅ 사전 분포 항

    • 사전 분포가 βN(μ0,τ2I)\beta \sim \mathcal N(\mu_0, \tau^2I)라고 가정하면,

      로그 사전 확률은 다음과 같다 :

      logP(β)=12τ2βμ02+constlog P(\beta) = -{1\over 2\tau^2}||\beta - \mu_0||^2 + \text{const}


  • ✅ MAP 손실 함수

    • 따라서 MAP는 다음과 같은 목적 함수를 최소화하는 최적화 문제로 표현된다:

      β^MAP=arg minβ[12σ2yXβ2+12τ2βμ02]\hat \beta_{MAP} = \text{arg }\text{min}_{\beta}[{1\over 2\sigma^2}||y-X\beta||^2 + {1\over 2\tau^2}||\beta - \mu_0||^2]

      의미
      yXβ∥y−Xβ∥예측값과 실제값 사이의 차이 (데이터 적합도)
      βμ0∥β−μ_0∥회귀 계수가 사전 지식 μ0\mu_0에서 벗어나는 정도
      1τ2{1\over \tau^2}얼마나 강하게 β\betaμ0μ0 쪽으로 당길 것인가 = 정규화 상수
    • 결과적으로 MAP 추정은,
      “데이터에 얼마나 맞추고 싶냐”“사전 정보를 얼마나 따르고 싶냐”
      사이에서 정규화 상수를 중심으로 균형을 잡는 최적화 과정이라고 볼 수 있다.


MAP 추정의 케이스별 특성 요약

케이스조건MAP 추정의 특징관련 모델 또는 효과
Weakly Informative Priorμ0=0\mu_0 = 0, τ2\tau^2계수를 0에 가까이 정규화Ridge 회귀 (L2)
Strong Priorμ00\mu_0 \neq 0, τ2\tau^2 작음계수를 μ0\mu_0 방향으로 강하게 당김Prior 중심 추정, 오버라이딩 효과
사후 정규분포사전과 우도가 모두 정규MAP = 사후 평균MAP = 평균 = 최빈값
사후 비정규분포사전 또는 우도가 비대칭MAP ≠ 평균, 꼬리 영향 적음Robust한 추정
profile
개인 공부용 블로그입니다

0개의 댓글