이 값을 보통 임의로 설정하게 되는데, 매우 큰 값으로 잡게 되면 그래프에서 하강하는 폭이 매우 크다는 것을 의미한다. 이 경우 학습이 이루어지지 않을 뿐만 아니라 최저점에 도달하는 것을 넘어서 그 반대 방향의 그래프에 도달할만큼 overshooting이 발생할 수 있다.
반대로 learning rate가 매우 작을 경우 최저점에 도달하는 데 까지 소요되는 시간이 길어지고, global minimum이 아닌 local minimum을 그래프의 최저점으로 인식할 수 도 있는 문제가 발생한다.
따라서 초반에 설정하는 learning rate 값에는 정답이 없다. 보통 0.01에서 부터 시작하여 cost 함수의 값을 관찰해본다.
트레이닝 데이터 셋에 매우 딱 맞는 모델을 만들어 냈을 때는 학습 데이터를 가지고 물어보면 답을 잘 하겠지만 실제로 사용해보거나 테스트할 때는 잘 안맞게 되는 경우
Overfitting 해결하는 방법
1) 트레이닝 데이터가 많으면 많을 수록 좋다
2) feature의 개수를 줄인다
3) 일반화 regularization
https://light-tree.tistory.com/132
Convolutional Neural Network
http://taewan.kim/post/cnn/
https://rosypark.tistory.com/8