




linear classifiers를 여러개 쌓은것임
max(0,w1x)인 이유 Activation Function ReLU임

모든 노드들이 Fully-connected되어있음

linear의 첫번째 layer는 Visual Viewpoint(templates)를 의미
linear의 두번째 layer는 첫번째 layer의 templates의 조합으로 class의 다양한 형태를 표현함? ex) 말의 왼쪽 얼굴, 말의 오른쪽 얼굴에 대한 템플릿

Linear 사이에 넣어주는 Activation Function은 비선형함수임
왜 필요한가? activation function이 없으면 아무리 여러개의 hidden layer를 겹쳐도 그냥 단순한 lienar classifier임

여러종류의 Activation 함수
계산 복잡도나 gradient vanishing, gradient exploding등의 이유를 고려하여 Activation Function을 고르게 됨

실제 뉴런의 Firing Rate도 비선형함수의 모습을 취함 (Activation Function도 비선형함수)
강의에서는 꼭 실제의 뉴런과 꼭 연관지어서 구현할 중요도는 없다고 했음





함수의 모든 x1,x2와 모든 0에서 1의 t값에 대하여 다음 수식이 만족하면 convex 함수이고, convex함수는 항상 global minimum을 보장할 수 있음

Linear Classifiers: convex함수(Softmax와 SVM)를 최적화함
Neural Networks: 대게 nonconvex함수를 최적화해야되기 때문에 local minimum에 빠질 수 있음