* 강사님의 자료는 저작권이 있기 때문에 배운 내용을 최대한 간단하게 정리하는 수준으로 작성하였습니다.
하이퍼 파라미터 vs 모델 파라미터
- 모델 파라미터 → 모델 내부 설정값, 모델 내부에서 값이 자동으로 정해짐
- 하이퍼 파라미터 → 사용자가 직접 입력하는 변수 ex) learning rate
주요 Optimizer
딥러닝 학습은 손실값이 가장 작은 모델을 만드는 것인데, 손실함수의 최솟값을 찾아가는 과정을 optimization (최적화)라고 함.
- SGD
- Momentum
- NAG
- Momentum의 단점 개선
- momentum에 의해 발생되는 변화 미리 보고 momentum 결정
- AdaGrad
- SGD, Momentum, NAG 모든 파라미터 업데이트에 동일한 learning rate 적용
- 각 iteration 별 맞춤형 learning rate 적용
- RMSProp
- Adagrad의 learning rate 소실되는 문제 개선
- Adam (Adaptive Moment Estimation)
- Momentum과 RMSProp 결합
- 이전 gradient 경향 적용 + learning rate가 점점 소실되는 문제 해결
- Adamax
* written on July 3rd