베이지안 선형 회귀
- 모델 :
- 실제 관측값 벡터 (종속 변수)
- 설명 변수 행렬 (독립 변수)
- 회귀 계수 (모수, 확률 변수)
- : 표준 오차
✅ 사전 분포 (Prior)
강한 사전 지식이 없을 때, 최대한 편향을 배제 (weakly informative prior) :
: 회귀 계수들은 0을 중심으로 분포한다고 가정
→ 선형 관계가 없을 수도 있다는 중립적 입장
: 각 계수가 독립이며, 동일한 불확실성을 갖는다고 가정
→ 특정 독립변수에 더 큰 중요성을 부여하지 않음
강한 사전 지식을 활용 (strong prior) :
"나는 가 약 0.8이라고 강하게 믿는다"
의 평균을 0.8(믿는 값)로 설정 →
공분산 행렬에서 의 분산(불확실성)을 작게 설정 →
🧠 사전 지식으로 빈도주의 추정값(예: OLS 회귀계수)을 사용하면 베이지안 추론과 충돌할까?
- 전혀 문제 없으며, 이렇게 빈도주의 추정 결과를 사전 분포로 활용하는 방식을 흔히
경험적 베이지안 접근(Empirical Bayes)이라고 한다.
베이지안 추론에서 사전 분포는 "믿음(belief)"을 수학적으로 표현한 것으로,
이 믿음은 [과거의 실험 결과, 도메인 지식, 빈도주의 추정값] 등 어떤 정보에도 기반할 수 있다.
엄밀한 베이지안은 사전 정보와 데이터가 독립이라고 전제하지만,
현실에서는 데이터 기반으로 사전 분포를 구성하는 경우도 많으며,
이는 실용적 베이지안 추론에서 널리 사용된다고 한다.
결국, 베이지안 추론의 핵심은
→ "사전 정보가 어디서 왔느냐" 보다
→ "믿음이 어떻게 업데이트되고"
→ "그 결과 사후 분포가 어떻게 형성되는지"에 있다.
✅ 우도 함수 (Likelihood)
라는 모델을 설정한다.
오차항의 정규성 가정에 의해 에 대한 확률 분포 가정, 즉 이 동반된다.
이때 확률변수 가 주어졌을 때 가 관측될 확률(=우도)을 계산한 식,
우도 함수는 다음과 같다.
✅ 사후 분포 (Posterior)
베이즈 정리에 따라 :
사전 분포 :
우도 함수 :
사전 분포와 우도 함수 모두 정규분포 형태이기 때문에, 곱해도 정규분포의 형태가 유지된다.
즉, 사후 분포도 정규분포가 된다
위 식을 에 대한 이차식으로 다시 쓰고,
정규분포의 완전제곱식 형태로 정리한다
결과적으로, 사후 분포는 다음과 같은 정규분포 형태를 따른다.
: 사후 평균
: 사후 공분산
사후 공분산의 의미
데이터 정확도
디자인 행렬의 자기곱 은 설명 변수들의 공분산 구조이며, 데이터 자체가 회귀 계수 에 대해 말해줄 수 있는 정보의 양을 의미한다.
오차항의 분산 은 노이즈의 크기, 즉 데이터의 신뢰도를 의미한다.
따라서 은 데이터가 회귀 계수 에 대해 제공하는 정확도를 수학적으로 정량화한 행렬이 된다.
사전 정보의 정확도
사전 분포의 공분산 행렬 은 각 회귀 계수 가 얼마나 넓게 퍼져 있다고 믿는가를 표현하는, 회귀계수의 불확실성을 정량화한 행렬이다.
이때, 역행렬 은 정확도 행렬(precision matrix)이라고 부르며, 사전 분포로 설정한 각 회귀 계수에 대해 우리가 그 값을 얼마나 강하게 믿는지를 정량화한 행렬이된다.
사후 공분산 : 최종적인 불확실성(uncertainty)
사후 공분산의 구조를 글로 표현하면 "(데이터 정확도 + 사전 정보의 정확도)의 역행렬"이다.
이는 총 정확도의 역수이며,
회귀 계수 에 대한 최종적인 불확실성을 나타내는 행렬이 된다.
사후 평균의 의미
사후 평균을 변형하면,
이때, 는 OLS에서의 회귀계수이다. 따라서, 이를 로 표현하면,
위 식에 사후 공분산을 대입하면, 정확도에 기반한 베이지안적 가중 평균형태가 된다.
이를 더 직관적으로 이해하기 위해 스칼라 형태의 의사 가중 평균으로 표현하면,
즉, 데이터 기반 추정값과 사전 평균이 정보량(=정확도)에 따라 가중합되는 구조이다.
✅ 사후 평균에 영향을 주는 주요 파라미터 정리
| 파라미터 | 변화 방향 | 비중 | 비중 | 해석 |
|---|---|---|---|---|
| ⬇ | ⬆ | ⬇ | 데이터가 더 신뢰할 만해져서 의 영향력 증가 | |
| ⬆ | ⬇ | ⬆ | 데이터가 노이즈에 묻힘 → 사전 정보의 영향력 증가 | |
| ⬇ | ⬇ | ⬆ | 사전 정보에 대한 신뢰도 증가 → 중심으로 수렴 | |
| ⬆ | ⬆ | ⬇ | 사전 정보 신뢰도 낮음 → 데이터 기반 추정에 의존 | |
| ⬇ | ⬇ | ⬆ | 설명 변수의 정보량 부족 → 사전 정보의 상대적 비중 증가 | |
| ⬆ | ⬆ | ⬇ | 설명 변수가 잘 구성됨 → 의 영향력 확대 |
MAP(Maximum A Posteriori)
- 베이지안 추론에서는 에 대해 사후 분포 전체를 다루는 것이 기본이지만,
경우에 따라 하나의 대표값만 사용하는 점추정 방식이 유용할 수 있다 :
- 실용적으로 하나의 값을 써야 할 때
- 계산 자원이 제한된 경우
- 단순 추정만 필요할 경우
- MAP는 사후 분포 에서 가장 그럴듯한 모수값을 하나 골라내는 방식이다.
✅ MAP 정의
베이즈 정리를 적용하면,
즉, MAP는 로그 우도 + 로그 사전 확률의 합을 최대화하는 문제이다.
✅ 로그 우도 항
정규성 가정 하에 :
로그 우도는 다음과 같다 :
✅ 사전 분포 항
사전 분포가 라고 가정하면,
로그 사전 확률은 다음과 같다 :
✅ MAP 손실 함수
따라서 MAP는 다음과 같은 목적 함수를 최소화하는 최적화 문제로 표현된다:
| 항 | 의미 |
|---|---|
| 예측값과 실제값 사이의 차이 (데이터 적합도) | |
| 회귀 계수가 사전 지식 에서 벗어나는 정도 | |
| 얼마나 강하게 를 쪽으로 당길 것인가 = 정규화 상수 |
결과적으로 MAP 추정은,
“데이터에 얼마나 맞추고 싶냐”와 “사전 정보를 얼마나 따르고 싶냐”
사이에서 정규화 상수를 중심으로 균형을 잡는 최적화 과정이라고 볼 수 있다.
MAP 추정의 케이스별 특성 요약
| 케이스 | 조건 | MAP 추정의 특징 | 관련 모델 또는 효과 |
|---|---|---|---|
| Weakly Informative Prior | , 큼 | 계수를 0에 가까이 정규화 | Ridge 회귀 (L2) |
| Strong Prior | , 작음 | 계수를 방향으로 강하게 당김 | Prior 중심 추정, 오버라이딩 효과 |
| 사후 정규분포 | 사전과 우도가 모두 정규 | MAP = 사후 평균 | MAP = 평균 = 최빈값 |
| 사후 비정규분포 | 사전 또는 우도가 비대칭 | MAP ≠ 평균, 꼬리 영향 적음 | Robust한 추정 |