Bayesian (2) - Non-informative prior

김당찬·2022년 6월 12일

Bayesian Data Analysis

목록 보기

2/2

Bayesian Data Analysis(2) - Noninformative prior distribution

이전 게시글에서는 single parameter model에서 이루어지는 bayesian inference의 대략적인 과정과, 그 과정에서 관찰되는 conjugate prior-posterior distribution에 대해 살펴보았다. 이번에는 prior distribution이 모집단에 대해 아무런 근거를 갖지 않는, non-informative한 사전분포를 다루어보도록 하자.

Noninformative

P(\theta|y) \propto p(y|\theta)p(\theta)

의 관계로부터, 사후확률의 분포는 샘플 분포와 사전분포에 의존한다. 사전분포는 이전에 다룬 것 처럼 conjugate한 form으로 정의할 수도 있겠으나, 결국 분포의 형태를 사용자가 임의로 결정할 수 있기 때문에 극단적으로 다음과 같은 경우

p(\theta) \propto 1

를 생각해볼 수 있다. 이 경우 사후분포는 sampling distribution에만 의존하게 되어, 추론과정이 데이터 외적인 요소에 영향을 받지 않게 된다. 이를 교재에서

“To let data speak for themselves”

라고 표현하는데, 말 그대로 오로지 데이터 샘플로부터 얻은 정보만을 이용한다는 의미이다. 이처럼 모집단에 대한 정보 없이 정의되는 사전분포를 non-informative prior distribution이라고 하며, 특히 위와 같이 $p(\theta)\propto1$ 형태로 정의되는 사전분포를 flat 하다고 한다.

Proper prior distribution

그런데, flat한 사전분포의 경우 모수 $\theta$ 를 추정하기 위해서는 구간 $(-\infty,\infty)$ 에서 임의의 수를 선택하는 것인데, 사전분포가 flat하므로

\int_{-\infty}^\infty p(\theta)d\theta = \infty

가 된다. 즉, 사전분포 밀도함수의 적분값이 수렴하지 않는다. 이러한 형태를 improper prior density라고 한다. 반면, 사전분포를 $\theta\sim U[-100,100]$ 과 같이 정의하는 경우 적분값이 양수로 수렴하므로 적당한 상수를 취해 적분값을 1로 만들어줄 수 있는데, 이러한 경우를 proper prior density라고 한다. 사전분포가 improper하다고 해서 사후분포 역시 반드시 improper하게 도출되지는 않는다. 예시로 분산이 알려진(known variance) 정규분포 sample을 살펴보도록 하자. 즉, 다음과 같은 sampling distribution

p(y|\theta) \sim N(\theta, \sigma^2),\;\;\text{where}\;\sigma\;\text{is known}

이 주어졌다고 하자. 이때 prior distribution을 임의의 정규분포 형태

p(\theta)\sim N(\mu_0,\tau_0^2)

로 가정하자(사전분포가 데이터셋과 동일한 정규분포를 취한다는 점에서 weakly-informative하다고 볼 수도 있다). 여기서 사전분포의 모수는 임의의 값이므로, improper한 밀도함수라는 것을 알 수 있다. 만일 데이터셋의 크기가 충분히 커진다면 prior precision $\tau_0^{-2}$ 보다 data precision $n/\sigma^2$ 이 커지게되어 결과적으로 사후분포가

p(\theta|y) \approx N(\theta|\bar y, \sigma^2/n)

에 근사된다. 즉, 이 경우 관측값이 하나라도 주어진다면 사후분포가 특정 정규분포로 결정되므로, 이는 proper posterior density가 된다.

Jeffrey’s principle

그런데, 일반적으로 non-informative한 사전분포는 변수변환(transformation)에 대해 안정적이지 않다. 예시로 flat한 형태의 사전분포 $p(\theta)\propto 1$ 을 생각해보자. 만일 확률변수변환

\phi = e^\theta

가 주어진다면, 변환에 의해

p(\phi) = p(\theta)|{d\theta\over d\phi}| \propto {1\over \phi}

가 되어 더이상 flat한 형태가 아니게 된다. 이러한 transformation-variance를 극복하기 위해 Jeffrey는 다음과 같은 사전분포형태를 정의했다.

p(\theta)\propto\sqrt{I(\theta)}

여기서 $I(\theta)$ 는 수리통계학에서 다루는 Fisher’s information, 즉

I(\theta) = E[-{\partial^2\over\partial\theta^2}\log p(y|\theta)|\theta]

를 의미한다. 이를 이용하면 임의의 확률변수 변환 $\phi = h(\theta)$ 에 대해

I(\phi) = I(\theta)\cdot\bigg|{d\theta\over d\phi}\bigg|^2

를 얻을 수 있고, 이로부터 변환에 대한 불변성(transformation-invariance)이 얻어진다.

예시로 이항분포 $Y\sim B(n,\theta)$ 에 대한 Jeffrey의 사전분포를 구하면 다음과 같다. 우선, 로그가능도함수

\log p(y|\theta) = y\log\theta + (n-y)\log(1-\theta) + C

로부터

I(\theta) = {n\over \theta(1-\theta)}

이므로

p(\theta) \propto \theta^{-1/2}(1-\theta)^{-1/2}

형태의 사전분포를 얻을 수 있다. 즉,

\theta \sim \text{Beta}({1\over2},{1\over 2})

이다.

김당찬

블로그 이사했습니다 https://ddangchani.github.io

이전 포스트

Bayesian (2) - Non-informative prior

Bayesian Data Analysis

Bayesian Data Analysis(2) - Noninformative prior distribution

Noninformative

Proper prior distribution

Jeffrey’s principle

Bayesian (1) - Single Parameter Models

0개의 댓글

관련 채용 정보