각 행벡터 는 데이터 와 가중치 행렬 W(연산자) 사이의 행렬곱과 절편 b 벡터의 합으로 표현됨(차원이 바뀜에 주목!)
Softmax
softmax : 모델의 출력을 확률로 해석할 수 있게 변환해주는 함수
출력벡터 에 softmax함수를 합성하면 확률벡터가 되므로 특정 클래스 k에 속할 확률(분류)로 해석할 수 있다
분류 문제를 풀 때 선형모델과 소프트맥스 함수를 결합하여 예측함
softmax(O) = softmax(Wx + b)
이와 같이, 선형모델에 softmax와 같은 비선형 함수를 섞어줌으로써, 선형 함수로 나오는 출력물을 비선형모델로 바꿔주게 된다.
활성함수 는 비선형함수로 잠재벡터 의 각 노드에 개별적으로 적용하여 새로운 잠재벡터 H = (을 만든다.
잠재벡터를 '뉴런'이라고 하고, 이런 Network를 '신경망'이라고 부름.
까지 순차적인 신경망 계산을 순전파(forward propagation)이라 부른다.
딥러닝은 역전파(backpropagation) 알고리즘을 이용하여 각 층에 사용된 파라미터를 학습함.
역전파: 각 층 패러미터의 그레디언트 벡터는 윗층부터 역순으로, 연쇄법칙(chain-rule)을 통해 계산하게 됨.
2층 신경망에서의 역전파