딥러닝 모델 학습은 모델의 출력과 정답 사이의 오차를 최소화하는 방향을 구하고 이 방향에 맞춰 모델 전체의 Parameter들을 업데이트 하는 과정입니다.
이때 오차를 Loss, 오차를 최소화하는 방향을 Gradient라고 합니다.
Optimization : 오차를 최소화 하는 과정
Parameter : 행렬, 벡터, 스칼라 등 모델의 구성 요소
Forward Propagation(순전파) : 오차를 구하려고 모델 처음부터 끝까지 순서대로 계산하는 과정
Back Propagation(역전파) : 순전파로 오차를 구했을 때 오차를 최소화하는 최초의 Gradient를 미분으로 구할 수 있는데 이후 미분의 연쇄 법칙에 따라 모델 파라미터별 Gradient를 구할 수 있습니다. 이 과정은 순전파의 역순으로 수행되는데 이 과정을 역전파라고 합니다.
Adam Optimizer : Transformer 모델이 쓰는 최적화 도구(알고리즘)입니다. 예들 들어 모델 파라미터를 업데이트 하는 과정을 산에서 한 걸음씩 내려가는 과정으로 비유해보면 Adam Optimizer는 방향과 보폭을 정해줍니다.