이전 게시글에서는 single parameter model에서 이루어지는 bayesian inference의 대략적인 과정과, 그 과정에서 관찰되는 conjugate prior-posterior distribution에 대해 살펴보았다. 이번에는 prior distribution이 모집단에 대해 아무런 근거를 갖지 않는, non-informative한 사전분포를 다루어보도록 하자.
의 관계로부터, 사후확률의 분포는 샘플 분포와 사전분포에 의존한다. 사전분포는 이전에 다룬 것 처럼 conjugate한 form으로 정의할 수도 있겠으나, 결국 분포의 형태를 사용자가 임의로 결정할 수 있기 때문에 극단적으로 다음과 같은 경우
를 생각해볼 수 있다. 이 경우 사후분포는 sampling distribution에만 의존하게 되어, 추론과정이 데이터 외적인 요소에 영향을 받지 않게 된다. 이를 교재에서
“To let data speak for themselves”
라고 표현하는데, 말 그대로 오로지 데이터 샘플로부터 얻은 정보만을 이용한다는 의미이다. 이처럼 모집단에 대한 정보 없이 정의되는 사전분포를 non-informative prior distribution이라고 하며, 특히 위와 같이 형태로 정의되는 사전분포를 flat 하다고 한다.
그런데, flat한 사전분포의 경우 모수 를 추정하기 위해서는 구간 에서 임의의 수를 선택하는 것인데, 사전분포가 flat하므로
가 된다. 즉, 사전분포 밀도함수의 적분값이 수렴하지 않는다. 이러한 형태를 improper prior density라고 한다. 반면, 사전분포를 과 같이 정의하는 경우 적분값이 양수로 수렴하므로 적당한 상수를 취해 적분값을 1로 만들어줄 수 있는데, 이러한 경우를 proper prior density라고 한다. 사전분포가 improper하다고 해서 사후분포 역시 반드시 improper하게 도출되지는 않는다. 예시로 분산이 알려진(known variance) 정규분포 sample을 살펴보도록 하자. 즉, 다음과 같은 sampling distribution
이 주어졌다고 하자. 이때 prior distribution을 임의의 정규분포 형태
로 가정하자(사전분포가 데이터셋과 동일한 정규분포를 취한다는 점에서 weakly-informative하다고 볼 수도 있다). 여기서 사전분포의 모수는 임의의 값이므로, improper한 밀도함수라는 것을 알 수 있다. 만일 데이터셋의 크기가 충분히 커진다면 prior precision 보다 data precision 이 커지게되어 결과적으로 사후분포가
에 근사된다. 즉, 이 경우 관측값이 하나라도 주어진다면 사후분포가 특정 정규분포로 결정되므로, 이는 proper posterior density가 된다.
그런데, 일반적으로 non-informative한 사전분포는 변수변환(transformation)에 대해 안정적이지 않다. 예시로 flat한 형태의 사전분포 을 생각해보자. 만일 확률변수변환
가 주어진다면, 변환에 의해
가 되어 더이상 flat한 형태가 아니게 된다. 이러한 transformation-variance를 극복하기 위해 Jeffrey는 다음과 같은 사전분포형태를 정의했다.
여기서 는 수리통계학에서 다루는 Fisher’s information, 즉
를 의미한다. 이를 이용하면 임의의 확률변수 변환 에 대해
를 얻을 수 있고, 이로부터 변환에 대한 불변성(transformation-invariance)이 얻어진다.
예시로 이항분포 에 대한 Jeffrey의 사전분포를 구하면 다음과 같다. 우선, 로그가능도함수
로부터
이므로
형태의 사전분포를 얻을 수 있다. 즉,
이다.