이 글은 부스트캠프 AI Tech 3기 강의를 듣고 정리한 글입니다.
딥러닝은 신경망[선형모델 / 활성함수]의 여러층에 대한 합성함수이기 때문에
목적식(손실함수)의 gradient 계산을 위해 연쇄법칙을 적용한 역전파를 사용한다.
신경망은 기본적으로 선형모델이 아닌 비선형 모델이다.
신경망을 수식적으로 분해해 보면 선형모델과 활성화함수로 이루어져 있다
목적식(참값 - 추정값)의 크기를 가장 작게 만들어 주는 를 찾았다.
하지만 단순히 선형변환만을 통해서는 복잡한 모델을 설명할 수 없다.
따라서 기존 선형 변환에 비선형 변환을 합성하여복잡한 모델을 설명 할 수 있게 한다. -> 신경망
신경망은 선형모델과 활성함수를 함성한 함수
활성화 함수는 각 z값들의 주소값을 받아 계산되기 때문에 벡터가 아닌 하나의 실수값을 가지고 각각 계산되게 된다.
활성함수는 실수집합에서 정의된 비선형 함수로 딥러닝에서 매우 중요한 개념
활성함수를 쓰지 않으면 딥러닝은 선형모형과 차이가 없게 된다.
sigmoid함수나 tanh함수는 전통적으로 많이 쓰이던 활성함수지만 딥러닝에선 ReLU 함수를 많이 씀
위에서 정의된 신경망(선형모델, 활성함수)를 여러게 쌓게 되면 다층 퍼셉트론
이렇게 까지 순차적인 신경망 계산을 순전파(forward propagation)이라 부른다