(BNN, Bayesian Neural Network) Loss function and Basic elements (한국어)

DongYoung Kim·2022년 7월 25일

Bayesian neural network(한글)

목록 보기

2/2

<이 글은 그저 Berger의 'Statistical decision theory and Bayesian analysis.(2013)'이라는 책을 요약정리하고 제 의견을 조금 추가한 글임을 밝힙니다.>

이번 글에서는 Bayesian에서 주로 사용되는 loss function과 그 활용에 대해 설명해보려고 합니다.

Basic Elements

기본적으로 $\theta$ 는 decision process에 영향을 끼치는 요인으로, state of nature이라고도 불립니다. 또한 자연 상태에서 발생할 수 있는 모든 state of nature을 모아둔 집합을 $\Theta$ 라고 합니다. 보통, $\theta$ 에 대한 정보를 얻기 위해 experiments가 시행되면, 이 $\theta$ 는 불확실성을 내포한 확률 분포를 통해 표현됩니다. 이러한 경우, $\theta$ 를 parameter이라고 하며, $\Theta$ 를 parameter space라고 합니다.

실험을 할 때 어떠한 결정을 선택할 때도 있습니다. MDP가 대표적인 예인데요, 이러한 경우 특정 action을 $a$ 라고 하고, 취할 수 있는 모든 action을 모은 집합을 $\mathcal{A}$ 라고 표현합니다.

Decision theory에서 가장 중요한 요소는 바로 loss function입니다. 그 이유는 실제 $\theta$ 값을 알 수 없기 때문에, 우리가 관심 있는 상황에서 가장 적합한 $\theta$ 값을 유추해야 하는 상황이 자주 발생하기 때문입니다. 만약 특정 action $a_1$ 을 취하고, 이 때 $\theta_1$ 가 실제 state of nature이었다면, loss는 다음과 같습니다.

L(\theta_1, a_1): where \, (\theta_1, a_1) \in \, \Theta \times \mathcal{A};

편의상, 우리는 $L(\theta, a)$ 가 임의의 음수 $-K$ 보다는 크다고 가정합니다.

만약 $\theta$ 를 얻기 위한 통계적 조사가 진행되었을 경우, outcome은 $X$ 로, randon variable입니다.(vector인 경우 $X=(X_1, X_2, X_3, ..., X_n)$ 이며, $X_i$ 는 각각의 independent한 observation입니다.) $X$ 에 대한 특정 realization은 $x$ 이며, 모든 outcome을 모은 집합은 $\mathcal{X}$ 로 표현합니다.(보통 $\mathcal{X}$ 은 $R^n$ 의 subset입니다.)

따라서 $X$ 의 probability distribution은 state of nature $\theta$ 에 따라 달라질 것입니다. 이는 discrete한 경우 event $A\in \mathcal{X}$ 다음과 같이 표현 가능합니다.

P_\theta(A)=\sum_{x \in A} f(x|\theta);

또한, $\theta$ 에 대한 prior belief(다소 확실하지 않기 때문에)의 경우, $\Theta$ 에 대해 정의된 확률 변수로 볼 수 있습니다. 이는 $S\in \Theta$ 에 대해 다음과 같이 표현할 수 있습니다.

P(S)=\sum_{\theta \in S} \pi(\theta);

Bayesian Expected Loss

실제 $\theta$ 값을 아는 것은 거의 불가능하기 때문에, 우리는 의사 결정에 따른 expected loss를 구해야 하며, 이에 따른 'optimal' decision을 선택해야 할 것입니다. 한 가지 자연스러운 방법은 모든 $\theta$ 에 대해 loss를 구하고, 이에 대한 평균을 내는 것입니다. 이를 수식으로 나타내면 다음과 같습니다.

Definition 1.) 만약 $\pi^(\theta)$ 가 $\theta$ 의 probability distribution으로 알려졌을 경우, action $a$ 에 대한 Bayesian expected loss*는 다음과 같다.

\rho(\pi^*, a) =E^{\pi^*}[L(\theta, a)] =\sum_{\theta \in \Theta} L(\theta, a)\pi^*(\theta);

Frequentist Risk

이에 반해, non-Bayesian 방식을 선호하는 사람들은, 마치 observation $X$ 에 대한 평균을 구하는 것과 같은 방식을 사용합니다. 먼저 decision rule에 대해 설명하는 것이 좋을 것 같습니다.

Definition 2.) (Random하지 않은) Decision rule $\delta(x) \in \mathcal{A}$ 은 $\mathcal{X}$ 에서 $\mathcal{A}$ 로의 함수이다. 따라서 observation $X=x$ 가 발생했을 경우, action $\delta(x) \in \mathcal{A}$ 가 취해질 것이다.

먼저, decision rule에 대해 설명을 하는 것이 좋을 것 같습니다. frequentist의 입장에서 decision rule은, 주어진 $\theta$ 에 대해 서로 다른 observation(혹은 data $\mathcal{D}$ )에 대해 어떤 action $a$ 를 취할 것인지를 결정하는 일종의 함수입니다.

따라서 frequentist의 입장에서는, 각각의 $\theta$ 에 대해 observation을 반복할 경우 decision rule $\delta(X)$ 를 취했을 때 평균적으로 어떤 loss를 얻는지에 대해 관심이 있을 것입니다. 이를 수식으로 나타내면 다음과 같습니다.

Definition 3.) 주어진 $\theta$ 에 대한 decision rule $\delta(x)$ 에 대한 risk function은 다음과 같다.

R(\theta, \delta) = E^{X}_{\theta}[L(\theta, \delta(X))] = \sum_{x \in X} L(\theta, \delta(x)) f(x|\theta);

즉, $R(\theta, \delta)$ 는 loss function $L(\theta, \delta(x))$ 을 $x$ 에 대해 평균을 낸 것입니다. 또한 data $\mathcal{D}$ 를 고려하지 않고 decision rule을 만들 경우, $L(\theta, a)=R(\theta, \delta(\cdot))$ 가 되어 loss function이 곧 decision rule이 될 것입니다.

따라서 frequentist들은 주어진 $\theta$ 에 대해 좋은 decision rule을 찾는 것에 모든 관심을 쏟을 것입니다. 이는 다음과 같이 정의 가능합니다.

Definition 4.) 임의의 decision rule $\delta_1(x)$ 는 $\delta_2(x)$ 에 비해, 만약 (일부 strict inequality가 성립하는 $\theta$ 를 제외한) 모든 $\theta \in \Theta$ 에서 $R(\theta, \delta_1) \le R(\theta, \delta_2)$ 인 경우 R-better 하다. 또한 모든 $\theta$ 에 대해 $R(\theta, \delta_1)=R(\theta, \delta_2)$ 일 경우 $\delta_1$ 는 $\delta_2$ 와 R-equivalent하다고 한다.

Definition 5.) 주어진 decision rule $\delta$ 는 만약 R-btter한 decision rule이 없을 경우 admissible하다고 한다. 만약 R-btter한 decision rule이 있을 경우 inadmissible하다고 한다.

따라서 상식적으로 inadmissible한 decision rule을 사용하는 것은 옳지 않습니다. 그런데 문제는 보통 admissible한 decision rule이 너무나 많다는 사실입니다.

마지막으로, 위에서 언급한 frequentist risk를 $\theta$ 에 대해 평균을 낸, Bayes risk에 대해 설명하고 이만 글을 마치려고 합니다.

Definition 6.) 주어진 decision rule $\delta$ 와 prior distribution $\pi$ 에 대한 Bayes risk는 다음과 같이 정의된다.

r(\pi, \delta)= E^{\pi}[R(\theta, \delta)]= E^{\pi}[\sum_{x \in X} L(\theta, \delta(x)) f(x|\theta)]\\= \sum_{\theta \in \Theta}\sum_{x \in X} L(\theta, \delta(x)) f(x|\theta) \pi(\theta)= \sum_{\theta \in \Theta}\sum_{x \in X} L(\theta, \delta(x)) f(x, \theta);

다음 포스트에서는 여러가지 예제와 함께, randomized rule과 likelihood에 대해 소개하겠습니다. 감사합니다.

참고자료: Berger, J. O. (2013). Statistical decision theory and Bayesian analysis. Springer Science & Business Media.

DongYoung Kim

Bayesian, System engineer, Evangelist

이전 포스트

(BNN, Bayesian Neural Network) Loss function and Basic elements (한국어)

Bayesian neural network(한글)

Basic Elements

Bayesian Expected Loss

Definition 1.) 만약 $\pi^(\theta)$ 가 $\theta$ 의 probability distribution으로 알려졌을 경우, action $a$ 에 대한 Bayesian expected loss*는 다음과 같다.

Frequentist Risk

Definition 2.) (Random하지 않은) Decision rule $\delta(x) \in \mathcal{A}$ 은 $\mathcal{X}$ 에서 $\mathcal{A}$ 로의 함수이다. 따라서 observation $X=x$ 가 발생했을 경우, action $\delta(x) \in \mathcal{A}$ 가 취해질 것이다.

Definition 3.) 주어진 $\theta$ 에 대한 decision rule $\delta(x)$ 에 대한 risk function은 다음과 같다.

Definition 5.) 주어진 decision rule $\delta$ 는 만약 R-btter한 decision rule이 없을 경우 admissible하다고 한다. 만약 R-btter한 decision rule이 있을 경우 inadmissible하다고 한다.

Definition 6.) 주어진 decision rule $\delta$ 와 prior distribution $\pi$ 에 대한 Bayes risk는 다음과 같이 정의된다.

MAP(최대사후법), ML(최대우도법) test

0개의 댓글

(BNN, Bayesian Neural Network) Loss function and Basic elements (한국어)

Bayesian neural network(한글)

Basic Elements

Bayesian Expected Loss

Definition 1.) 만약 π∗(θ)\pi^*(\theta)π∗(θ)가 θ\thetaθ의 probability distribution으로 알려졌을 경우, action aaa에 대한 Bayesian expected loss는 다음과 같다.

Frequentist Risk

Definition 2.) (Random하지 않은) Decision rule δ(x)∈A\delta(x) \in \mathcal{A}δ(x)∈A은 X\mathcal{X}X에서 A\mathcal{A}A로의 함수이다. 따라서 observation X=xX=xX=x가 발생했을 경우, action δ(x)∈A\delta(x) \in \mathcal{A}δ(x)∈A 가 취해질 것이다.

Definition 3.) 주어진 θ\thetaθ에 대한 decision rule δ(x)\delta(x)δ(x)에 대한 risk function은 다음과 같다.

Definition 5.) 주어진 decision rule δ\deltaδ는 만약 R-btter한 decision rule이 없을 경우 admissible하다고 한다. 만약 R-btter한 decision rule이 있을 경우 inadmissible하다고 한다.

Definition 6.) 주어진 decision rule δ\deltaδ와 prior distribution π\piπ에 대한 Bayes risk는 다음과 같이 정의된다.

MAP(최대사후법), ML(최대우도법) test

0개의 댓글

Definition 1.) 만약 $\pi^(\theta)$ 가 $\theta$ 의 probability distribution으로 알려졌을 경우, action $a$ 에 대한 Bayesian expected loss*는 다음과 같다.

Definition 2.) (Random하지 않은) Decision rule $\delta(x) \in \mathcal{A}$ 은 $\mathcal{X}$ 에서 $\mathcal{A}$ 로의 함수이다. 따라서 observation $X=x$ 가 발생했을 경우, action $\delta(x) \in \mathcal{A}$ 가 취해질 것이다.

Definition 3.) 주어진 $\theta$ 에 대한 decision rule $\delta(x)$ 에 대한 risk function은 다음과 같다.

Definition 5.) 주어진 decision rule $\delta$ 는 만약 R-btter한 decision rule이 없을 경우 admissible하다고 한다. 만약 R-btter한 decision rule이 있을 경우 inadmissible하다고 한다.

Definition 6.) 주어진 decision rule $\delta$ 와 prior distribution $\pi$ 에 대한 Bayes risk는 다음과 같이 정의된다.