Training Dataset of I pairs of input/output examples
: i번째 입력값
: i번째 정답값
I : 전체 데이터 개수
Loss function or cost function measures how bad model is
손실함수는 "모델의 성능을 수치로 평가하는 기준"이고, 학습은 이 손실을 최소화 하는 방향으로 진행된다.


모델은 예측을 한다. 그런데 예측이 틀렸는지 맞았는지를 어떻게 판단할까? 그리고 틀렸다면 파라미터를 어떤 방향으로 바꿔야 할까? 이 질문에 답하는 개념이 바로 Loss Function과 Gradient 이다.
손실을 줄이려면 어느 방향으로 가야할까?
손실함수를 정의했다고 해서 학습이 끝나는 것은 아니다. 이제는 손실을 줄이기 위해 파라미터를 어떻게 바꿔야 하는지 알아야 한다. 이때 필요한 정보가 Gradient 이다.

SGD는 현재 배치에서 계산한 gradient를 이용해 손실이 줄어드는 방향으로 파라미터를 조금씩 이동시키는 알고리즘이다.
모델의 파라미터가 구성되어있자면, 학습을 위해서는 각 파라미터에 대해 손실을 미분해야 한다. 즉, 결국 해야 할 일은 "손실이 각 파라미터에 얼마나 민감한가"를 계산하는 것이다.