gradient-based optimization을 왜 고려해야 하는가

SoyE·2023년 8월 25일
0


global minima에 도달하는 최적의 방향이 위 검은색 방향임에도 불구하고
mini batch size가 너무 작은 경우에 빨간색 방향처럼 돌아서 global minima에 도달할 수 있다
-> slow convergence

또한 두 번 미분한 값이 poor conditioining*인 경우 최적의 방향이 아닌 위와 같이 돌아서 최솟 값으로 수렴하게 된다 -> slow convergence

poor conditioining이란?
-> Hessian H의 conditioin number*의 값이 높은 것을 의미
conditioin number란?
-> 서로 다른 두 뱡향의 곡률이 얼마만큼 다른 지를 나타냄

이미지 출처 CS231n

profile
응애

0개의 댓글