대회 링크: https://dacon.io/competitions/official/236033/overview/description
baseline 코드를 몇 번 돌려보고 내 생각대로 더 좋은 방법으로 개선시켜, 학습시켜본 결과 다음과 같은 결과를 얻었다.
(baseline 코드 그대로 학습시킨다고 해도 아래와 같은 결과가 나오진 않을 것이다.)
결과를 보면 30 epoch 동안
train loss는 36 -> 30 으로 6 정도 감소한 반면,
valid loss는 14.8 -> 14.1 로 0.7 정도 감소했다.
현재 상위권의 loss 결과가 4 ~ 6인 것을 감안하면 매우 높은 값이며,
약 5 epoch 부터 valid loss가 증가하는 것을 보면 오버피팅이 발생되고 있다.
먼저 문제라고 생각한 것은 시계열 데이터 분석을 처음 해봐서 간과한 것들이다.
예를 들어, 현재 데이터셋은 24시간 동안의 "내부온도관측치", "내부습도관측치" 와 같은 총 15개의 feature와 그 날의 잎의 무게가 하나의 data, label 묶음이다.
즉, 다음 날의 무게를 예측하기 위해서 가장 중요한 "전 날 잎의 무게" 에 대한 고려가 전혀 없다.
또한, 보통 생육 그래프는 시그모이드나 tanh 함수처럼 초기에는 느리게 자라다가 중기에는 가파르게 성장하고 말기에는 느리게 성장한다. 이러한 특성에 대한 고려 또한 전혀 없는 것이 문제로 생각된다.
데이터셋을 28일 간의 모든 data, label로 수정하여, 그 전날에 예측한 잎의 무게를 다음 날의 예측값에 반영하는 방식으로 모델을 구성한다.