시계열 분석을 통한 판매량 예측 프로젝트를 하다가 하이퍼 파라미터를 설정하는 과정에서 헷갈리는 부분을 정리해보았다.
사실 시계열 뿐만 아니라 대부분의 딥러닝을 할 때에도 적용될 것이다. window size와 batch size를 정할 때 너무 작아도 안되고, 너무 커도 안되는데 그 이유를 알아보았다.
Long-Term Patterns Capturing
시계열에서 Window size가 커지면 모델은 더 긴 기간의 패턴을 파악할 수 있다. 더 많은 과거 데이터를 포함하므로 장기적인 추세나 주기성을 더 잘 포착할 수 있다.
Smoothing Effec
큰 Window size는 데이터의 노이즈와 튀는 값에 대한 영향을 줄일 수 있다. 평균화 효과로 인해 이상치나 노이즈가 덜 반영될 수 있다.
Feature Extraction
큰 Window size를 사용하면 모델에 더 많은 정보를 제공할 수 있다. 더 많은 과거 데이터를 활용하므로 모델이 더 의미 있는 특징을 학습할 수 있다.
Computational Complexity
Window size가 커지면 학습 및 추론 과정에서 계산 복잡도가 증가한다. 더 많은 데이터를 처리해야 하므로 더 많은 계산 리소스가 필요하다.
Delayed Predictions
큰 Window size를 사용하면 Window size 만큼 이전의 데이터를 사용하게 되므로 모델의 예측은 더 늦게 이루어진다.
Overfitting
Window size가 클수록 모델이 과거 데이터에 과적합될 가능성이 높다. 특히 시계열 데이터의 변동성이 크거나 예측이 어려운 경우에는 주의해야 한다.
작은 Window size는 빠른 예측을 가능하게 하지만 단기적인 패턴만 파악할 수 있는 반면, 큰 Window size는 장기적인 패턴을 파악하게 하지만 계산 복잡도와 과적합의 위험이 있다.
Batch size란?
한 번의 업데이트마다 사용되는 샘플의 개수. 작은 배치 크기는 모델의 파라미터 업데이트가 빈번하게 이루어지지만, 노이즈에 민감할 수 있는 반면, 큰 배치 크기는 파라미터 업데이트가 적게 이루어지지만 더 안정적인 그레디언트 추정이 가능하다.
학습 속도
작은 배치 크기는 파라미터 업데이트가 빈번하게 이루어지므로 학습 속도가 빨라진다. 즉, 배치 크기가 작을수록 모델이 데이터를 더 빠르게 학습할 수 있다는 것이다.
메모리 사용량
배치 크기가 작으면 메모리 사용량이 줄어든다. 배치 크기가 크면 한 번에 많은 데이터를 메모리에 유지해야 하므로 메모리 부족으로 인한 문제가 발생할 수 있다.
노이즈 민감성
배치 크기가 작을수록 그레디언트의 변동성이 높아질 수 있다. 이로 인해 모델이 노이즈에 더 민감하게 반응할 수 있다.
일반화
배치 크기가 작을수록 일반화 능력이 향상된다. 작은 배치에서 모델은 데이터의 다양한 패턴을 빠르게 학습하고, 더 일반화된 특징을 추출할 수 있다.
과적합 위험
작은 배치 크기는 모델이 훈련 데이터에 과도하게 적합될 위험이 있다. 모델이 데이터의 잡음이나 이상치까지 학습할 가능성이 높아진다.