이를 늘릴 경우 더 구체화된 패턴을 학습하여 훈련 데이터에 적합하게 만들 수 있다. 하지만 모델 복잡도가 높아져 오버피팅의 위험이 있다.
에폭 수만큼 학습을 한 후 가장 손실함수가 적은 값을 가질 때의 가중치 값을 지닌 모델로 선택
모델 학습 시 데이터 전체를 한 번에 학습하는 것이 아니라 배치 단위로 잘라서 학습시키면서 가중치 업데이트, 고로 batch_size가 작아지면 더 자주 가중치를 업데이트 하게 되고 값이 커지면 비교적 더 적게 업데이트를 하게 된다.
대개 ReLU니 leaky ReLU의 경우 은닉층에서 많이 사용하며 시그모이드나 소프트맥스의 경우 출력층에서 많이 사용한다.
gradient descent를 통해 최적해, 손실함수가 가장 적을 때 가중치 값을 찾기 위해서는 미분을 통해 방향을 찾아 이동하나, 그 이동하는 크기를 학습률이라고 한다. 학습률이 클 경우 진동해서 학습이 제대로 되지 않을 수 있으며 작을 경우 학습이 지나치게 천천히 될 수 있다.
실제 값과 예측 값의 차이를 설명할 수 있는 함수. 어떤 함수를 쓸 건지는 데이터와 모델에 따라 적절한 것 선택해야 함
가중치를 최적화할 때 어떤 방법을 쓰느냐.