[BoostCamp AI Tech / Day 4] AI Math 5강 - 딥러닝 학습방법 이해하기

newbie·2021년 8월 5일

[boostcampAI U stage] week1

목록 보기

17/21

신경망은 선형 모델과 활성함수(activation function)를 합성한 함수
regression 문제가 아닌 Classification 문제에선 이진 분류 시, sigmoid, 다중클래스 시 softmax actvation 함수를 활용
activation 함수는 선형의 출력을 비선형 모델에 맞는 값(분류 클래스별 확률값)으로 변환
activation 함수를 통해 Dense layer의 각 노드가 확률값을 갖게 되며, 그 값들을 모아놓은 벡터를 잠재벡터 $H = ({\sigma(z_1),\cdots,\sigma(z_n)})$ 라고 한다.
(이부분은 조금 확인이 필요할 것으로 보임, 강의 내에서 activation function과 softmax 함수도 개별적인 존재로 다뤘는데, 왜 그런지도 확인이 필요할 것으로 보임
※ 해당 내용을 정리한 강의 내에는 $\sigma$ 를 activation 함수의 기호로 사용했으니 이 점을 참고)
- 일반적으로 $\sigma$ 는 활성화 함수 중 sigmoid를 뜻하는 것으로 알고 있음.. 잘못되었으면 코멘트 부탁드립니다.

activation function(활성함수)은 R 위에 정의된 비선형(nonlinear) 함수로서 딥러닝에서 매우 중요한 개념
활성화 함수를 쓰지 않으면, 딥러닝은 선형 모델과 차이가 없음
시그모이드(sigmoid) 함수나 tanh 함수는 전통적으로 많이 쓰이던 활성화 함수지만 딥러닝에선 ReLU 함수를 많이 쓰고 있음
sigmoid는 어려번 사용하게 될수록 결국 값이 0으로 수렴하게 되는 문제가 있음, 따라서 이진 분류 문제에서 최종 확률값을 출력해주는 방식으로만 쓰임
tanh는 RNN model에서 쓰임(LSTM, GRU)

선형 모델의 결과인 O를 입력으로 받아서, 각 O에 대한 지수함수 값을 분자로하고, 그 지수함수들의 합을 분모로 하여, 각 class별 확률을 반환
단, 추론을 할 때는 원-핫(one-hot) 벡터로 최대값을 가진 주소만 1로 출력하는 연산을 하여 softmax로 출력

다층(Multi-layer)퍼셉트론(perceptron), 줄여서 MLP는 신경망이 어려 층으로 합성된 함수

이론적으론 2층 신경망으로도 임의의 연속함수를 근사 가능
단 층이 깊을 수록 목적 함수를 근사하는데 필요한 뉴런(노드)의 개수가 훨씬 빨리 줄어들어 좀 더 효율적으로 학습이 가능
- 적은 뉴런의 개수로 조금 더 빠르게 목적함수로 근사 가능
- 층이 깊어질수록 적은 파라미터로도 복잡한 함수를 표현 가능
복잡한 패턴의 데이터일 경우 조금 더 깊은 신경망을 통해 목적 함수로 근사 가능
단, 층이 깊다고 복잡한 함수로 근사를 할 수 있지만, 최적화가 어려워질 수 있음(학습)

역전파 알고리즘은 합성함수 미분법인 연쇄법칙(chain-rule) 기반 자동미분(auto-differentiation)을 사용
역전파 알고리즘은 순전파 알고리즘보다 더 많은 메모리를 사용
- 역전파는 최하층의 미분을 진행하려면 그 위의 모든 노드에 대한 텐서값을 컴퓨터가 가지고 있어야 함