Gradient descent
로컬 미디엄을 찾기위해 1차 미분을 반복적으로 최적화하는 알고리즘
일반화 성능을 높이는게 목표임 그렇다면 일반화는 뭘까?
generalization:training error와 test erorr 차이와 관련

Underfitting VS Overfitting

Cross-validation(K-hold validation)

Bias and Variance


Boostrapping
Bagging VS Boosting

Large batch를 활용하면 sharpe minizer에 도달, small batch를 활용하면 flat minizer에 도달

- Gradient descent
- learning rate, stepsize 찾는게 너무 어려움
- Momentum
- 한번 흘러간 Gradiention 유지하기 때문에 그래디언트가 왔다갔다해서 잘 학습시킴
- Nesterov Accelerate
- 한번 이동후 그래디언트 계산하고 accumulation함
- Momentum보다 local minimum에 더 빠르게 도달
- Adagrad
(1):지금까지 얼마나 파라미터가 변했는지를 제곱해서 더한 값
- 역수에 있기 때문에 많이 변했으면 좀 적게, 적게 변했으면 많이 변화를 줌
- (1)이 점점 무한대로 가면서 뒤로 갈수록 학습이 잘안됨
- Adadelta
- 학습률이 없기 때문에 잘 활용하지 않음
- RMsprop
- 학습이 잘되서 많이 활용했었음
- Adam
그래디언트 크기가 따라서 adative하게 학습률을 변화하는 것 + Momentum을 같이 활용함