아래 내용은 네이버 AI precourse 강의를 개인 공부를 위해 정리한 내용입니다.
미분값을 빼면 함수의 극소값의 위치를 구할 수 있으며, 경사하강법(gradient descent)라고 함.



각 변수 별로 편미분을 계산한 그레디언트(gradient) 벡터 이용d차원의 vector이면 편미분을 d번 수행
그레디언트 벡터는 각 점에서 가장 빨리 증가하는 방향으로 흐름- 그레디언트 벡터는 각 점에서 가장 빨리 감소하는 방향으로 흐름경사하강법을 이용하여 적절한 선형모델을 구해보자!일반적인 모델에서의 최적화에서도 사용할 수 있을 것이다!

선형 모형을 편미분한 그레디언트 벡터의 결과는 가중치 벡터임
여기서 람다는 학습률을 의미함
어차피 L2 Norm을 최소화하는 를 찾나, L2 Norm의 제곱을 최소화하는 를 찾나 둘 다 동일! 그런데 제곱을 활용하면 식이 더 간편해지니 이렇게 사용함
즉, grad = - transpose(x) @ error 꼴

비선형회귀 문제의 경우, 목적식이 볼록하지 않을(non-convex) 수 있으므로 수렴이 항상 보장되지 않음
=> 변형된 경사하강법 필요!
확률적 경사하강법(Stochastic Gradient Descent, SGD)는 모든 데이터를 활용하여 업데이트하는 대신, 일부 데이터(mini-batch)만을 활용하여 업데이트 수행

결론적으로, 딥러닝의 경우 SGD가 경사하강법보다 주로 더 나은 성능을 보임
기존의 learning rate, 학습 횟수에 더해 mini-batch size 도 중요한 hyper parameter임