부스트코스 강의 인공지능(AI) 기초 다지기 중 '딥러닝 학습방법 이해하기'를 정리한 내용이다.
비선형모델인 신경망(neural network)
Softmax 연산
softmax 함수는 모델의 출력을 확률로 해석할 수 있게 변환해주는 연산
분류 문제를 풀 때 선형모델과 softmax 함수를 결합하여 예측함
추론을 할때는 one-hot 벡터로 최대값을 가진 주소만 1로 출력하는 연산을 사용하고 softmax는 사용하지 않음
신경망은 선형모델과 activation function(활성함수)을 합성한 함수
activation function
층을 쌓는 이유: 층이 깊을수록 목적함수를 근사하는데 필요한 뉴런(노드)의 숫자가 훨씬 빨리 줄어 효율적으로 학습이 가능하기에 층을 여러개 쌓음
딥러닝은 역전파(backpropagation) 알고리즘을 이용하여 각 층에 사용된 파라미터를 학습함
각 층 paraemter의 gradient vector는 윗층부터 역순으로 계산하게 됨 - 연쇄법칙을 통해 gradient vector 전달
역전파 알고리즘은 합성함수 미분법인 연쇄법칙(chain-rule)기반 자동미분(auto-diffentiation)을 사용함
2층 신경망의 역전파 알고리즘