Loss function이 어떤 성질을 갖고있고, 왜 내가 train하는데 도움이 될 것인지를 알고 사용하는 것이 중요
Regression:
MSE = 0이라고 항상 최적의 모델인 것은 아니다
loss는 L-1 norm, L-2 norm 혹은 다른 것을 사용해도 무관
L-2는 outliar가 있을 때 영향을 많이 받기 때문에(robustness가 낮다) 주의할 필요가 있음
Classification:
yid(i = index, d = class)는 one-hot vector라서 정답인 차원의 class만 1이고 나머지는 0
--> NN의 출력값 중에서, 해당하는 차원의 class의 값만 높이겠다(얼마나 높아지는진 상관x)
Probablistic:
uncertain한 정보를 같이 찾고싶을 때 주로 사용