작동 방식: 그래디언트의 제곱값에 대한 이동 평균을 계산하고, 이 값의 제곱근으로 학습률을 나눕니다.
효과: 그래디언트를 제곱하여 방향을 제외한 각 방향에 대한 크기(진동이 심한 정도)를 파악할 수 있고, 이를 통해 나눔으로 특정 그래디언트가 컸던 방향(진동이 심한 방향)은 보폭을 줄이고, 그래디언트가 작았던 방향(완만한 방향)은 보폭을 늘려(왜냐하면 작은 값으로 나누면 상대적으로 커지는 효과) 계곡 문제를 효과적으로 해결합니다.
Adam (Adaptive Moment Estimation):
결합: 모멘텀과 RMSprop의 장점을 합친, 현재 가장 널리 사용되는 최적화 알고리즘입니다.
작동 방식: 그래디언트의 1차 모멘트(평균, 모멘텀)와 2차 모멘트(제곱의 평균, RMSprop)를 모두 추적하여 업데이트를 수행합니다.
AdamW: Adam에 L2 정규화(가중치 감쇠)를 더 효과적으로 적용한 개선된 버전입니다.
4. 학습률 스케줄링과 2차 최적화
학습률 (Learning Rate)의 중요성:
너무 크면: 최적점을 지나쳐 발산(diverge)할 수 있습니다.
너무 작으면: 학습이 매우 느리고, 지역 최솟값에 갇히기 쉽습니다.
학습률 스케줄링 (Learning Rate Scheduling):
학습 과정 동안 학습률을 동적으로 조절하는 전략입니다.
일반적인 전략: 학습 초기에는 큰 학습률로 빠르게 최적점에 다가가고, 최적점 근처에서는 학습률을 줄여 미세 조정을 합니다.
대표적인 스케줄러:
스텝 감쇠(Step Decay): 특정 epoch마다 학습률을 일정 비율로 줄입니다.
코사인 감쇠(Cosine Decay): 코사인 함수 모양으로 학습률을 부드럽게 줄여나갑니다.
선형 웜업(Linear Warm-up): 불안정한 학습 초기에 학습률을 0에서부터 서서히 증가시켜 안정성을 높입니다.
2차 최적화 (Second-Order Optimization):
개념: 그래디언트(1차 미분)뿐만 아니라 헤시안(Hessian) 행렬(2차 미분)을 사용하여 손실 함수의 '곡률'까지 파악하는 방법입니다.
장점: 손실 지형에 대한 더 많은 정보를 활용하므로 더 빠르고 정확하게 최적점에 도달할 수 있습니다.
단점: 헤시안 행렬을 계산하고 저장하는 비용이 파라미터 개수의 제곱에 비례하여 매우 크기 때문에, 수백만 개 이상의 파라미터를 가진 현대의 딥러닝 모델에는 거의 사용되지 않습니다.
5. 심화 내용: 최적화 알고리즘의 본질
기술적 배경: 모든 1차 최적화 알고리즘(SGD, Adam 등)의 근본적인 목표는 고차원의 복잡한 손실 함수 표면에서 전역 최솟값(global minimum)을 찾는 것입니다. 하지만 그래디언트 정보만으로는 현재 위치가 지역 최솟값인지, 안장점인지, 아니면 거대한 평지(plateau)인지 구분하기 어렵습니다. 모멘텀과 적응적 학습률(adaptive learning rate)은 이러한 불확실한 지형을 더 빠르고 안정적으로 탐색하기 위해 과거의 정보를 '기억'하고 미래의 보폭을 '조절'하는 정교한 경험적 기법(heuristic)이라고 할 수 있습니다.
최신 동향: 최근에는 Adam이 표준처럼 사용되지만, 때로는 잘 튜닝된 SGD+모멘텀이 더 좋은 일반화 성능을 보이는 경우가 있다는 연구 결과도 많습니다. 이는 Adam이 너무 빨리 최적점에 수렴하여, 날카롭고 좁은 최솟값(sharp minima)에 빠지는 경향이 있기 때문이라는 분석이 있습니다. 반면 SGD는 노이즈 덕분에 더 넓고 평평한 최솟값(flat minima)을 찾아내고, 이것이 더 나은 일반화로 이어진다는 것입니다. 이처럼 '어떤 최적화 알고리즘이 항상 최고인가'에 대한 정답은 없으며, 문제와 데이터에 따라 최적의 선택이 달라질 수 있습니다.
명확한 한계점: 본 강의에서 다룬 모든 최적화 기법들은 손실 함수가 볼록(convex)하지 않은 비볼록(non-convex) 함수라는 근본적인 문제에 직면합니다. 이는 우리가 찾은 해가 전역 최적해라는 보장이 전혀 없다는 것을 의미합니다. 딥러닝에서 '최적화에 성공했다'는 것은 보통 손실 값이 충분히 낮아져 검증 세트에서 좋은 성능을 보이는 '쓸만한' 지역 최솟값을 찾았다는 의미로 사용됩니다. 전역 최적해를 찾는 것은 여전히 이론적으로 매우 어려운 미해결 과제입니다.