<이 글은 그저 Berger의 'Statistical decision theory and Bayesian analysis.(2013)'이라는 책을 요약정리하고 제 의견을 조금 추가한 글임을 밝힙니다.>
이번 글에서는 Bayesian에서 주로 사용되는 loss function과 그 활용에 대해 설명해보려고 합니다.
Basic Elements
기본적으로 θ는 decision process에 영향을 끼치는 요인으로, state of nature이라고도 불립니다. 또한 자연 상태에서 발생할 수 있는 모든 state of nature을 모아둔 집합을 Θ라고 합니다. 보통, θ에 대한 정보를 얻기 위해 experiments가 시행되면, 이 θ는 불확실성을 내포한 확률 분포를 통해 표현됩니다. 이러한 경우, θ를 parameter이라고 하며, Θ를 parameter space라고 합니다.
실험을 할 때 어떠한 결정을 선택할 때도 있습니다. MDP가 대표적인 예인데요, 이러한 경우 특정 action을 a라고 하고, 취할 수 있는 모든 action을 모은 집합을 A라고 표현합니다.
Decision theory에서 가장 중요한 요소는 바로 loss function입니다. 그 이유는 실제 θ값을 알 수 없기 때문에, 우리가 관심 있는 상황에서 가장 적합한 θ값을 유추해야 하는 상황이 자주 발생하기 때문입니다. 만약 특정 action a1을 취하고, 이 때 θ1가 실제 state of nature이었다면, loss는 다음과 같습니다.
L(θ1,a1):where(θ1,a1)∈Θ×A;
편의상, 우리는 L(θ,a)가 임의의 음수 −K보다는 크다고 가정합니다.
만약 θ를 얻기 위한 통계적 조사가 진행되었을 경우, outcome은 X로, randon variable입니다.(vector인 경우 X=(X1,X2,X3,...,Xn)이며, Xi는 각각의 independent한 observation입니다.) X에 대한 특정 realization은 x이며, 모든 outcome을 모은 집합은 X로 표현합니다.(보통 X은 Rn의 subset입니다.)
따라서 X의 probability distribution은 state of nature θ에 따라 달라질 것입니다. 이는 discrete한 경우 event A∈X 다음과 같이 표현 가능합니다.
Pθ(A)=x∈A∑f(x∣θ);
또한, θ에 대한 prior belief(다소 확실하지 않기 때문에)의 경우, Θ에 대해 정의된 확률 변수로 볼 수 있습니다. 이는 S∈Θ에 대해 다음과 같이 표현할 수 있습니다.
P(S)=θ∈S∑π(θ);
Bayesian Expected Loss
실제 θ값을 아는 것은 거의 불가능하기 때문에, 우리는 의사 결정에 따른 expected loss를 구해야 하며, 이에 따른 'optimal' decision을 선택해야 할 것입니다. 한 가지 자연스러운 방법은 모든 θ에 대해 loss를 구하고, 이에 대한 평균을 내는 것입니다. 이를 수식으로 나타내면 다음과 같습니다.
Definition 1.) 만약 π∗(θ)가 θ의 probability distribution으로 알려졌을 경우, action a에 대한 Bayesian expected loss는 다음과 같다.
ρ(π∗,a)=Eπ∗[L(θ,a)]=θ∈Θ∑L(θ,a)π∗(θ);
Frequentist Risk
이에 반해, non-Bayesian 방식을 선호하는 사람들은, 마치 observation X에 대한 평균을 구하는 것과 같은 방식을 사용합니다. 먼저 decision rule에 대해 설명하는 것이 좋을 것 같습니다.
Definition 2.) (Random하지 않은) Decision rule δ(x)∈A은 X에서 A로의 함수이다. 따라서 observation X=x가 발생했을 경우, action δ(x)∈A 가 취해질 것이다.
먼저, decision rule에 대해 설명을 하는 것이 좋을 것 같습니다. frequentist의 입장에서 decision rule은, 주어진 θ에 대해 서로 다른 observation(혹은 data D)에 대해 어떤 action a를 취할 것인지를 결정하는 일종의 함수입니다.
따라서 frequentist의 입장에서는, 각각의 θ에 대해 observation을 반복할 경우 decision rule δ(X)를 취했을 때 평균적으로 어떤 loss를 얻는지에 대해 관심이 있을 것입니다. 이를 수식으로 나타내면 다음과 같습니다.
Definition 3.) 주어진 θ에 대한 decision rule δ(x)에 대한 risk function은 다음과 같다.
R(θ,δ)=EθX[L(θ,δ(X))]=x∈X∑L(θ,δ(x))f(x∣θ);
즉, R(θ,δ)는 loss function L(θ,δ(x))을 x에 대해 평균을 낸 것입니다. 또한 data D를 고려하지 않고 decision rule을 만들 경우, L(θ,a)=R(θ,δ(⋅)) 가 되어 loss function이 곧 decision rule이 될 것입니다.
따라서 frequentist들은 주어진 θ에 대해 좋은 decision rule을 찾는 것에 모든 관심을 쏟을 것입니다. 이는 다음과 같이 정의 가능합니다.
Definition 4.) 임의의 decision rule δ1(x)는 δ2(x)에 비해, 만약 (일부 strict inequality가 성립하는 θ를 제외한) 모든 θ∈Θ에서 R(θ,δ1)≤R(θ,δ2)인 경우 R-better 하다. 또한 모든 θ에 대해 R(θ,δ1)=R(θ,δ2)일 경우 δ1는 δ2와 R-equivalent하다고 한다.
Definition 5.) 주어진 decision rule δ는 만약 R-btter한 decision rule이 없을 경우 admissible하다고 한다. 만약 R-btter한 decision rule이 있을 경우 inadmissible하다고 한다.
따라서 상식적으로 inadmissible한 decision rule을 사용하는 것은 옳지 않습니다. 그런데 문제는 보통 admissible한 decision rule이 너무나 많다는 사실입니다.
마지막으로, 위에서 언급한 frequentist risk를 θ에 대해 평균을 낸, Bayes risk에 대해 설명하고 이만 글을 마치려고 합니다.
Definition 6.) 주어진 decision rule δ와 prior distribution π에 대한 Bayes risk는 다음과 같이 정의된다.
r(π,δ)=Eπ[R(θ,δ)]=Eπ[x∈X∑L(θ,δ(x))f(x∣θ)]=θ∈Θ∑x∈X∑L(θ,δ(x))f(x∣θ)π(θ)=θ∈Θ∑x∈X∑L(θ,δ(x))f(x,θ);
다음 포스트에서는 여러가지 예제와 함께, randomized rule과 likelihood에 대해 소개하겠습니다. 감사합니다.
참고자료: Berger, J. O. (2013). Statistical decision theory and Bayesian analysis. Springer Science & Business Media.