아래 내용은 네이버 AI precourse 강의를 개인 공부를 위해 정리한 내용입니다.
지난시간까지 선형모델에 대해 학습했다면,
이번시간부터는 비선형모델인 신경망(neural network)에 대해 다룸!
선형모델을 거치면 입력 데이터의 차원 d에서 출력벡터 차원 p로 바뀜
각 화살표는 각각의 가중치벡터를 의미함 (화살표 개수: p x d)
여기에서, Regression이 아닌 Classification 문제에서는 선형결합 뿐만 아니라 Softmax 연산자가 추가적으로 필요
Softmax 함수란?
모델의 출력을 확률로 해석할 수 있게 변환해주는 연산임.모델을 학습할 때에는 softmax 함수를 사용하지만,추론할 때에는 원-핫 벡터(one-hot vector)를 사용함. one-hot vector는 주어진 출력에서 가장 큰 값을 가진 주소만 1로 출력하는 연산임.
비선형(non linear) 함수로, 딥러닝에서 매우 중요활성함수를 사용하지 않으면 딥러닝은 선형모형과 차이가 없기 때문!ReLU(오늘날 가장 많이 활용)

선형 모델 -> 활성함수 -> 선형모델 형태층을 여러개 쌓는 이유

1. 순전파(Forward Propagation): 입력 데이터를 네트워크를 통해 전달하여 출력 값을 계산한다.
2. 오차 계산(Error Calculation): 예측 값과 실제 값 간의 차이를 계산하여 손실 함수 값을 구한다.
3. 역전파(Backward Propagation): 오차를 통해 각 가중치와 편향에 대한 기울기(Gradient)를 계산하고, 이를 사용하여 가중치와 편향을 업데이트한다.
층이 여러개이다. 따라서 역전 방향으로 순차적으로 계산이 필요하다. 그래서 우리는 역전파라는 개념을 배우게 된 것이다.
역전파 알고리즘은 합성함수 미분법인연쇄법칙(chain-rule) 기반 자동미분(auto-differentiation) 사용

추가 설명
이렇게 계산한 각각의 가중치 행렬에 대한 gradient vector를 SGD를 이용해 data를 mini-batch로 나누어 번갈아가며 데이터 학습.
최종적으로, 이를 통해 주어진 목적식을 최소화하는 파라미터를 찾음!