Mean Squared Error (MSE), Cross entropy (CE)에 대한 Likelihood 관점에서의 비교입니다.
확률분포 관점에서 네트워크 출력을 보면, 정해진 확률분포 (e.g., 가우시안, 베르누이 등)에서 출력이 나올 확률이라고 해석할 수 있습니다. 즉, 우리가 라고 쓴 네트워크의 아웃풋에서 가 하는 역할은 확률분포의 모수를 추정하는 것입니다. 예를 들어, 가우시안 분포의 를 예측하는 것이고 로스로 스칼라 하나가 나오는 것은 추정된 분포에서 GT 의 likelihood를 평가하는 것입니다. 아래 그림에서 이와 같은 관점이 잘 설명되어 있습니다.
그리고 이러한 likelihood를 최대화(maximization)를 하기 바라기 때문에 를 붙여 주어서 Negative log likelihodd loss
로 사용하는데, 따라서 이 관점에서는 따라서 이 관점에서는 Loss를 최소화 시키는 것은, likelihood를 최대화 시키는 것이 됩니다. 또한 확률 분포를 찾은 것이기 때문에, 샘플링을 한다고 볼 수 있습니다. 근데, 해석이긴 하지만 Negative log likelihood loss가 NN을 학습시키는 적합한 loss로 사용될 있을까요? Backpropagation에 사용될 수 있는 loss는 아래와 같은 두 가지 가정을 충족해야 합니다.
(A1) Total loss of DNN over training samples is the sum of loss for each training sample
(A2) Loss for each training example is a function of final output of DNN
일반적으로 likelihood를 추정하기 위한 학습 데이터에 대해서 i.i.d 조건을 가정하기 때문에 적합한 loss 입니다.
All of our data is independent of each other (Independence) ~ (A1) 만족
Our data is identically distributed (Identical Distribution) ~ (A2) 만족
한편 데이터가 Univariate 혹은 Mutivariate 할 경우, Gaussian 분포, Bernoulli / Categorical 분포의 모수를 추정한다고 가정했을 때, 각 경우 어떤 loss가 적합한지 고민해 볼 수 있습니다. 결론부터 이야기하면 Gaussian 분포 모수 추정시에는 MSE가, Bernoulli / Categorical 분포 모수 추정시에는 Cross-entropy가 적합한 loss입니다. 수식 유도는 이활석님 슬라이드에서 가져왔습니다:
이 관점에서 보면 데이터가 continuous 분포를 따른 다면 MSE가 반면 discrete 하다면 Cross-entropy가 적합합니다 :)