(BNN, Bayesian Neural Network) Loss function and Basic elements (한국어)

DongYoung Kim·2022년 7월 25일
2
post-thumbnail

<이 글은 그저 Berger의 'Statistical decision theory and Bayesian analysis.(2013)'이라는 책을 요약정리하고 제 의견을 조금 추가한 글임을 밝힙니다.>

이번 글에서는 Bayesian에서 주로 사용되는 loss function과 그 활용에 대해 설명해보려고 합니다.

Basic Elements

기본적으로 θ\theta는 decision process에 영향을 끼치는 요인으로, state of nature이라고도 불립니다. 또한 자연 상태에서 발생할 수 있는 모든 state of nature을 모아둔 집합을 Θ\Theta라고 합니다. 보통, θ\theta에 대한 정보를 얻기 위해 experiments가 시행되면, 이 θ\theta는 불확실성을 내포한 확률 분포를 통해 표현됩니다. 이러한 경우, θ\theta를 parameter이라고 하며, Θ\Theta를 parameter space라고 합니다.

실험을 할 때 어떠한 결정을 선택할 때도 있습니다. MDP가 대표적인 예인데요, 이러한 경우 특정 action을 aa라고 하고, 취할 수 있는 모든 action을 모은 집합을 A\mathcal{A}라고 표현합니다.

Decision theory에서 가장 중요한 요소는 바로 loss function입니다. 그 이유는 실제 θ\theta값을 알 수 없기 때문에, 우리가 관심 있는 상황에서 가장 적합한 θ\theta값을 유추해야 하는 상황이 자주 발생하기 때문입니다. 만약 특정 action a1a_1을 취하고, 이 때 θ1\theta_1가 실제 state of nature이었다면, loss는 다음과 같습니다.

L(θ1,a1):where(θ1,a1)Θ×A;L(\theta_1, a_1): where \, (\theta_1, a_1) \in \, \Theta \times \mathcal{A};

편의상, 우리는 L(θ,a)L(\theta, a)가 임의의 음수 K-K보다는 크다고 가정합니다.

만약 θ\theta를 얻기 위한 통계적 조사가 진행되었을 경우, outcome은 XX로, randon variable입니다.(vector인 경우 X=(X1,X2,X3,...,Xn)X=(X_1, X_2, X_3, ..., X_n)이며, XiX_i는 각각의 independent한 observation입니다.) XX에 대한 특정 realization은 xx이며, 모든 outcome을 모은 집합은 X\mathcal{X}로 표현합니다.(보통 X\mathcal{X}RnR^n의 subset입니다.)

따라서 XX의 probability distribution은 state of nature θ\theta에 따라 달라질 것입니다. 이는 discrete한 경우 event AXA\in \mathcal{X} 다음과 같이 표현 가능합니다.

Pθ(A)=xAf(xθ);P_\theta(A)=\sum_{x \in A} f(x|\theta);

또한, θ\theta에 대한 prior belief(다소 확실하지 않기 때문에)의 경우, Θ\Theta에 대해 정의된 확률 변수로 볼 수 있습니다. 이는 SΘS\in \Theta에 대해 다음과 같이 표현할 수 있습니다.

P(S)=θSπ(θ);P(S)=\sum_{\theta \in S} \pi(\theta);

Bayesian Expected Loss

실제 θ\theta값을 아는 것은 거의 불가능하기 때문에, 우리는 의사 결정에 따른 expected loss를 구해야 하며, 이에 따른 'optimal' decision을 선택해야 할 것입니다. 한 가지 자연스러운 방법은 모든 θ\theta에 대해 loss를 구하고, 이에 대한 평균을 내는 것입니다. 이를 수식으로 나타내면 다음과 같습니다.

Definition 1.) 만약 π(θ)\pi^*(\theta)θ\theta의 probability distribution으로 알려졌을 경우, action aa에 대한 Bayesian expected loss는 다음과 같다.

ρ(π,a)=Eπ[L(θ,a)]=θΘL(θ,a)π(θ);\rho(\pi^*, a) =E^{\pi^*}[L(\theta, a)] =\sum_{\theta \in \Theta} L(\theta, a)\pi^*(\theta);

Frequentist Risk

이에 반해, non-Bayesian 방식을 선호하는 사람들은, 마치 observation XX에 대한 평균을 구하는 것과 같은 방식을 사용합니다. 먼저 decision rule에 대해 설명하는 것이 좋을 것 같습니다.

Definition 2.) (Random하지 않은) Decision rule δ(x)A\delta(x) \in \mathcal{A}X\mathcal{X}에서 A\mathcal{A}로의 함수이다. 따라서 observation X=xX=x가 발생했을 경우, action δ(x)A\delta(x) \in \mathcal{A} 가 취해질 것이다.

먼저, decision rule에 대해 설명을 하는 것이 좋을 것 같습니다. frequentist의 입장에서 decision rule은, 주어진 θ\theta에 대해 서로 다른 observation(혹은 data D\mathcal{D})에 대해 어떤 action aa를 취할 것인지를 결정하는 일종의 함수입니다.

따라서 frequentist의 입장에서는, 각각의 θ\theta에 대해 observation을 반복할 경우 decision rule δ(X)\delta(X)를 취했을 때 평균적으로 어떤 loss를 얻는지에 대해 관심이 있을 것입니다. 이를 수식으로 나타내면 다음과 같습니다.

Definition 3.) 주어진 θ\theta에 대한 decision rule δ(x)\delta(x)에 대한 risk function은 다음과 같다.

R(θ,δ)=EθX[L(θ,δ(X))]=xXL(θ,δ(x))f(xθ);R(\theta, \delta) = E^{X}_{\theta}[L(\theta, \delta(X))] = \sum_{x \in X} L(\theta, \delta(x)) f(x|\theta);

즉, R(θ,δ)R(\theta, \delta)는 loss function L(θ,δ(x))L(\theta, \delta(x))xx에 대해 평균을 낸 것입니다. 또한 data D\mathcal{D}를 고려하지 않고 decision rule을 만들 경우, L(θ,a)=R(θ,δ())L(\theta, a)=R(\theta, \delta(\cdot)) 가 되어 loss function이 곧 decision rule이 될 것입니다.

따라서 frequentist들은 주어진 θ\theta에 대해 좋은 decision rule을 찾는 것에 모든 관심을 쏟을 것입니다. 이는 다음과 같이 정의 가능합니다.

Definition 4.) 임의의 decision rule δ1(x)\delta_1(x)δ2(x)\delta_2(x)에 비해, 만약 (일부 strict inequality가 성립하는 θ\theta를 제외한) 모든 θΘ\theta \in \Theta에서 R(θ,δ1)R(θ,δ2)R(\theta, \delta_1) \le R(\theta, \delta_2)인 경우 R-better 하다. 또한 모든 θ\theta에 대해 R(θ,δ1)=R(θ,δ2)R(\theta, \delta_1)=R(\theta, \delta_2)일 경우 δ1\delta_1δ2\delta_2와 R-equivalent하다고 한다.

Definition 5.) 주어진 decision rule δ\delta는 만약 R-btter한 decision rule이 없을 경우 admissible하다고 한다. 만약 R-btter한 decision rule이 있을 경우 inadmissible하다고 한다.

따라서 상식적으로 inadmissible한 decision rule을 사용하는 것은 옳지 않습니다. 그런데 문제는 보통 admissible한 decision rule이 너무나 많다는 사실입니다.

마지막으로, 위에서 언급한 frequentist risk를 θ\theta에 대해 평균을 낸, Bayes risk에 대해 설명하고 이만 글을 마치려고 합니다.

Definition 6.) 주어진 decision rule δ\delta와 prior distribution π\pi에 대한 Bayes risk는 다음과 같이 정의된다.

r(π,δ)=Eπ[R(θ,δ)]=Eπ[xXL(θ,δ(x))f(xθ)]=θΘxXL(θ,δ(x))f(xθ)π(θ)=θΘxXL(θ,δ(x))f(x,θ);r(\pi, \delta)= E^{\pi}[R(\theta, \delta)]= E^{\pi}[\sum_{x \in X} L(\theta, \delta(x)) f(x|\theta)]\\= \sum_{\theta \in \Theta}\sum_{x \in X} L(\theta, \delta(x)) f(x|\theta) \pi(\theta)= \sum_{\theta \in \Theta}\sum_{x \in X} L(\theta, \delta(x)) f(x, \theta);

다음 포스트에서는 여러가지 예제와 함께, randomized rule과 likelihood에 대해 소개하겠습니다. 감사합니다.

참고자료: Berger, J. O. (2013). Statistical decision theory and Bayesian analysis. Springer Science & Business Media.

profile
Bayesian, System engineer, Evangelist

0개의 댓글