05강. 딥러닝 핵심 개념 이해 (2)

이찬·2023년 9월 15일

단층 퍼셉트론 vs 다층 퍼셉트론

  • 단층 퍼셉트론은 값을 보내는 단계와 값을 받아서 출력하는 두 단계로만 구성됨
  • 이 각 단계를 보통 층(layer)이라고 부르며, 이 두 개의 층을 입력층(input layer)과 출력층(output layer)이라고 부름
    퍼셉트론
  • 다층 퍼셉트론 MLP (MultiLayer Perceptron)
  • 다층 퍼셉트론은 중간에 은닉층이 존재한다는 점이 단층 퍼셉트론과의 차이
  • 은닉층이 2개 이상인 신경망을 심층 신경망(Deep Neural Network, DNN)

    지금까지는 OR, AND, XOR 게이트 등. 퍼셉트론이 제대로 된 정답을 출력할 때까지 저자가 직접 가중치를 바꿔보면서 적절한 가중치를 수동으로 찾았습니다. 하지만 이제는 기계가 가중치를 스스로 찾아내도록 자동화시켜야하는데, 이것이 머신 러닝에서 말하는 훈련(training) 또는 학습(learning) 단계에 해당됩니다. 앞서 선형 회귀와 로지스틱 회귀에서 보았듯이 손실 함수(Loss function)와 옵티마이저(Optimizer)를 사용합니다. 그리고 만약 학습을 시키는 인공 신경망이 심층 신경망일 경우에는 이를 심층 신경망을 학습시킨다고 하여, 딥 러닝(Deep Learning)이라고 합니다.

단층 퍼셉트론

  1. 선형 결합
  2. 활성화 함수
  • Activation Function

STEP FUNCTION 계단 함수

  • seta3를 바꿔줌에 따라 MSE가 바뀌는데, seta1을 바꾸면서 gradient descent를 적용하여 MSE를 계산해서 최적의 seta1의 값을 구하는 것은 말이 안 됨.

그럼 seta 1 의 최적 값은 어떻게 구하지?

  • (perceptron 미분) x (error) => 한 단계 이전의 결과값이 나옴
  • 퍼셉트론을 미분한다 == g(x) 활성화 함수를 미분한다.
    그런데, step Function의 미분값은 언제나 0이기에, 활성화 함수로 사용하기에 적합하지 않다.

STEP FUNCTION => sigmoid 함수!

sigmoid 함수 => 과거의 error로 돌아갈 수 있게 됨

  • 0 과 1 사이로만 결과값이 나오기에, 음수의 값이 모두 양수로 처리된다는 단점이 존재
  • 기울기의 최댓값 : 0.25 => 몇 번 과거로 돌아가다 보면, error가 거의 희미해지는 단점
  • ReLu
  • Leaky ReLu : 음의 부분이 조금 기울여진 형태
  • Exponential ReLu (ELU)
profile
Kyunghee univ. IE 21

0개의 댓글