정적(static) 추정 문제는 다음과 같이 측정 벡터의 집합 를 함수로 하는 상수벡터 의 추정기(estimator)를 설계하는 문제다.
추정기는 미지의 상수벡터 를 어떤 성격으로 규정하느냐에 따라 크게 베이즈 방법(Bayesian approach)과 비 베이즈 방법(non-Bayesian approach)로 나뉜다.
베이즈 방법에서는 를 랜덤벡터로 본다. 따라서 에 관한 사전(a priori) 확률 정보를 알고 있다고 가정한다. 측정 벡터 는 에 관한 확률 정보를 좀 더 정확하게 보강해주는 역할을 한다. 베이즈 방법에는 최대사후(MAP, maximum a posteriori) 추정기와 최소평균제곱오차(MMSE, minimum mean-square error) 추정기가 있다.
반면, 비 베이즈 방법에서는 를 미지의 확정된 값으로 본다. 따라서 에 관한 사전 확률정보가 전혀 없으며 에 관한 정보는 오로지 측정 벡터 를 통해서만 얻을 수 있다고 가정한다. 비 베이즈 방법에는 최대빈도(ML, maximum likelihood) 추정기와 최소제곱오차(LSE, least square error) 추정기가 있다.
강화학습에서 언급되는 추정기는 최대사후(MAP) 추정기와 최대빈도(ML) 추정기다.
사전확률(prior probability)을 이용하는 방법. 즉, 에 관한 사전 확률정보, 를 알고 있다고 가정한다.
베이즈 정리에 의하면 측정 벡터 를 조건으로 하는 미지의 랜덤벡터 의 확률밀도함수는 다음과 같이 주어진다.
여기서 는 벡터 가 측정되기 전인 사전에 알고 있는 의 확률밀도함수이고, 는 측정 벡터 의 확률밀도함수로서 측정 과정의 확률 정보를 나타낸다. 는 를 조건으로 하는 의 조건부 확률밀도함수로서 에 따라 특정 측정 벡터 가 얼마나 자주 나타나는가를 나타내는 빈도함수(likelihood function)다. 한편 는 가 측정된 후(a posteriori)에 주어진 의 조건부 확률밀도함수다.
최대사후 추정기는 를 조건으로 하는 미지의 랜덤벡터 의 조건부 확률밀도함수가 최대값일 때의 의 값(mode)을 의 추정값으로 정의한다.
사전확률(prior probability)을 이용하지 않는 방법
비 베이즈 추정기는 추정하고자 하는 벡터 를 미지의 확정된 값으로 본다. 측정 벡터 는 벡터 값에 따라 달라질 것이므로 의 확률밀도함수는 미지의 벡터 의 함수가 된다. 즉, 로 표기 할 수 있다.
최대빈도 추정기는 측정 벡터 의 확률밀도함수를 최대로 하는 의 값을 추정값으로 정의한다. 즉,
한편, 최대빈도(ML) 추정기를 정의할 때 최대사후(MAP) 추정기와의 표기의 일관성을 유지하기 위해 확률밀도함수 를 다음과 같이 조건부 확률밀도함수의 형식으로 표현하기도 한다.
여기서 는 를 조건으로 하는 의 조건부 확률밀도함수로서 에 따라 특정 측정 벡터 가 얼마나 자주 나타나는가를 나타내는 빈도함수다. 이 표기법은 최대빈도(ML) 추정기의 정의를 명확하게 이해하는 데 도움이 되고 표기의 일관성이 유지되는 장점이 있다.
최대사후(MAP) 추정기와 최대빈도(ML) 추정기는 확률밀도함수를 최대로 하는 값을 추정값으로 정의한다는 점에서 같다. 하지만 MAP는 미지의 값 를 랜덤벡터로 보며 에 관한 사전 확률정보를 알고 있다고 가정하지만, ML 추정기는 를 미지의 확정된 값으로 보며 에 관한 사전 확률정보가 전혀 없고 에 관한 정보는 오로지 측정 벡터 를 통해서만 얻을 수 있다고 가정한다는 차이점이 있다.
예시를 통해 알아 보면,
다음과 같은 스칼라 선형 측정 방정식이 주어졌다고 하자
여기서 측정 노이즈 는 평균이 0이고 분산이 인 가우시안 랜덤 변수라고 가정하자
먼저, 를 미지의 확정된 값으로 보고 의 빈도함수를 구해보자
ML 추정값은 의 빈도함수를 최대로 하는 값이므로 다음과 같이 측정값 를 추정값으로 산출한다.
이번에는 의 사전 확률정보가 다음과 같이 가우시안 확률밀도함수로 주어졌다고 가정하자.
여기서 와 는 서로 독립인 랜덤 변수로 가정한다. 그러면 측정변수 를 조건으로 하는 랜덤 변수 의 확률밀도함수는 다음과 같이 주어진다.
여기서 는 정규화 상수다. 위 식을 좀 더 전개해 정리하면 다음과 같은 가우시안 확률밀도함수를 얻을 수 있다.
References
[1] 박성수. (2020). 수학으로 풀어보는 강화학습 원리와 알고리즘. 위키북스