모멘텀(Momentum), RMSProp, 그리고 Adam은 딥러닝에서 널리 사용되는 최적화 알고리즘.
각 알고리즘은 기존의 확률적 경사 하강법(Stochastic Gradient Descent, SGD)을 개선하여 보다 효율적으로 최적의 매개변수를 찾음.
기본 개념: 모멘텀은 이전 그라디언트가 현재 업데이트에 영향을 미치도록 하는 방법으로, 물리학에서의 모멘텀 개념에서 영감을 받았습니다.
작동 원리: 이전 스텝의 그라디언트를 일정 비율만큼 현재 그라디언트에 더함으로써, 매개변수의 업데이트가 이전의 운동량을 반영하게 합니다.
장점: 지역 최소값(local minima)이나 안장점(saddle points)에 갇힐 가능성을 줄여주며, 이를 통해 최적화 과정이 보다 빠르고 안정적으로 이루어집니다.
기본 개념: RMSProp은 가중치 업데이트 시 이전 그라디언트의 크기를 고려하여 학습률을 조정하는 방법입니다.
작동 원리: 이전 그라디언트의 제곱 평균을 계산하여, 각 매개변수에 대한 학습률을 조정합니다. 이로 인해 각 매개변수가 다른 속도로 업데이트됩니다.
장점: 모델이 최적점으로 수렴하는 속도를 개선하며, 비등방성 함수(anisotropic functions)에서 특히 효과적입니다.
기본 개념: Adam은 모멘텀과 RMSProp의 아이디어를 결합한 알고리즘입니다.
작동 원리: 첫 번째 모멘트(평균)과 두 번째 모멘트(분산)의 추정치를 각각 계산하여, 이를 매개변수 업데이트에 사용합니다.
장점: 다양한 종류의 문제와 데이터에 대해 일반적으로 잘 작동하며, 특히 불균형한 데이터셋이나 불규칙한 데이터 분포에서 좋은 성능을 보입니다.
이러한 알고리즘들은 각각의 특성과 장점을 가지고 있으며, 특정 문제에 대해 가장 적합한 알고리즘을 선택하는 것이 중요. 모멘텀은 일반적인 최적화 상황에서, RMSProp은 복잡한 비등방성 최적화 문제에서, Adam은 다양한 종류의 문제에 광범위하게 적용 가능한 효과적인 최적화 방법으로 널리 인정받고 있음.