이 글과 이어집니다!
선형, 비선형
변환을 수행하는 다층의 인공 신경망을 의미한다.Key Points
- 각각의 Loss function들이 어떤 성질을 가지고 있나?
- 이 Loss function을 이용하면 왜 내가 원하는 결과를 얻을 수 있는가?
제곱을 하기 때문에, 차이가 크면 Outlier가 너무 커질 수도 있다.
제곱 대신에 절댓값을 취하면 MAE(Mean Absolute Error)
가 된다.
MAE
는 MSE
에 비해 outlier에 덜 민감하다.outlier가 덜하다는 확신이 있을 경우, MSE
가 더 좋다.
MAE
는 median을 기준으로, MSE
는 평균을 기준으로 data를 fitting 시키기 때문에 보통 MSE
가 더 권장됨 (출처)MSE
는 손실함수로 쓰이고 MAE
는 회귀 지표로 쓰임
Classification task에서 보통 output은 One-hot Encoding
되어있다.
따라서 cross entropy 식에서 개의 중에 유효한 값은 1개이다.
즉, 정답에 해당하는 출력값만 키우는 것이 목적이다. 얼마나 더 키우냐?
는 중요하지 않고, 가장 큰 값만 고려되므로 just 크기만 하면 된다.