Neural Networks를 생각해보면 행렬과 비선형 연산이 반복적으로 구성되어 우리가 정의한 것을 출력해내는 함수 근사 모델
가장 간단한 Liear Neural Networks를 보면,
weight와 bias의 최적값을 바로 구하기 위해서는 특정 조건이 필요하여, 일반적으로 back propagation을 통해 loss function이 줄어드는 방향으로 학습을 시켜서 weight를 구한다.
2층 이상의 신경망을 구성할 경우
loss function에 대해서
Classification Task, CE(Cross Entropy)
Probabilistci Task, MLE