딥러닝 학습방법 이해하기

yst3147·2022년 1월 19일
0

공부할 내용

  • 비선형 모델인 신경망
  • softmax
  • 활성함수
  • 역전파 알고리즘

비선형 모델 신경망

  • 신경망은 선형모델과 활성함수(activation function)을 합성한 함수

  • 다층(multi-layer) 퍼셉트론(MLP)은 신경망이 여러층 합성된 함수

층을 여러개 쌓는 이유

  • 층이 깊을수록 목적함수를 근사하는데 필요한 뉴런(노드)의 숫자가 훨씬 빨리 줄어들어 좀 더 효율적으로 학습이 가능하기 때문
    • 층이 얇으면 필요한 뉴런의 숫자가 기하급수적으로 늘어나서 넓은(wide) 신경망이 되어야 함

softmax

  • 소프트맥스(softmax)함수는 모델의 출력을 확률로 해석할 수 있게 변환해 주는 연산
  • 분류 문제를 풀 때 선형모델과 소프트맥스 함수를 결합하여 예측

활성함수

  • 실수값을 입력으로 받아 실수 출력값을 내는 비선형(nonlinear) 함수
  • 활성함수를 쓰지 않으면 딥러닝은 선형모형과 차이가 없음
  • sigmoid 함수나 tanh 함수와 같은 활성함수도 있지만 딥러닝에선 ReLU 함수를 많이 쓰고 있다.

역전파 알고리즘

  • 딥러닝은 역전파(backpropagation) 알고리즘을 이용하여 각 층에 사용된 파라미터를 학습
  • 각 층 파라미터의 그레디언트 벡터는 윗층부터 역순으로 계산

원리

  • 역전파 알고리즘은 합성함수 미분법인 연쇄법칙(chain-rule) 기반 자동미분(auto-differentiation)을 사용
  • 각 노드의 텐서 값을 컴퓨터가 기억해야 미분 계산이 가능
    • 순전파보다 메모리가 많이 필요

0개의 댓글

관련 채용 정보