CNN 2주차 스터디-(2)

노은서·2024년 9월 17일

CNN ToI 스터디

[CHAPTER 03. 딥러닝 영상분석을 위한 학습 과정]

이번 장에서는 딥러닝 학습을 위해 준비해야 하는 사항과 학습이 이뤄진 후 모델의 결과인 예측 정확도를 높이기 위해 사용하는 방법을 알아보자.

1. 가중치의 최적화 솔버들

솔버(Solver)란 ?

= 모델을 최적화하고자 할 때 사용하는 알고리즘을 솔버라고 부름.

기본적으로 최적화 솔버로 SGD(확률적 경사 하강법)를 사용함. --> 모든 딥러닝 모델을 최적화할 수 없음!!
SGD는 손실이 가장 적은 가중치 파라미터를 찾는 과정에서, 가중치의 변화량이 가장 적은, 즉 경사각이 가장 작아지는 지점을 찾아가는 알고리즘

이러한 특성 때문에, 복잡한 딥러닝 네트워크에서 SGD를 사용하면 문제가 발생할 수 있다.

* 대표적인 문제

중간에 값이 국소적으로 작아졌다가 커지는 극솟값 (왼쪽 그림)

변화량이 국소적으로 거의 변화가 없다가 내려가는 안장점 (오른쪽 그림)
--> 그래디언트가 0에 가까워지면서 학습을 진행할 수가 없!!

이 문제를 해결하고자 도입된 개선된 최적화 솔버

1) SGD + 모멘텀

= 경사 하강으로 최적화하는 과정에 운동량이라는 개념을 추가한 방법

효과 : 극솟값 문제나 안장점을 피할 수 있는(중간에 머물지 않고 내려갈 수 있는) 과정이다.
<SGD 식>

* 이를 적용한 수식

get_gradient(x) : 그래디언트를 얻는 함수
learningRate : 학습률 변수

while True:
      dx = get_gradient(x)
      x += learningRate * dx

<SGD + 모멘텀 식>

* 이를 적용한 수식

vx = 0
while True:
      dx = get_gradient(x)
      vx = rho * vx + dx
      x += learningRate * vx

모멘텀의 역할

= 경사 하강으로 진행되는 x의 변화를 가속하는 역할
= 경사 하강에서 일어나는 지그재그 현상으로 속도가 떨어지는 것을 방지해서 빠른 속도로 수렴하게 해줌

모멘텀은 경사 하강 중인 가중치가 변화하는 관성을 이용해 극솟값에서 머물지 않고 지속적으로 변화할 수 있게 함

* 변화율을 지속해 극솟값 문제가 발생하지 않게 함!!