Recap of Accomplishments
2023-08-28
- 기존 머신러닝 모델의 문제점 :
강수량의 데이터가 전체 데이터의 10%이다. 하지만 강수량에 대해 딥러닝 모델이 가중치를 주지 못하고 데이터가 없는 경우(강수량이 없는 경우)와 0(강수는 있지만 0mm)인 경우를 거의 구분하지 못했다.
-> 해결방법 :
머신러닝의 부스팅 모델은 이러한 데이터에 영향을 잘 받지 않고 알아서 해석해서 공부한다.
모델 디자인에 대한 작업의 양이 줄어서 데이터 디자인에 조금 더 신경쓸 수 있을 것이다.
연구 목표
미래기후 시나리오에 적용해서 2050년까지 한반도 (및 전구) 태양광 발전량을 추정하는 것
2023-08-30
모델 개선 방법 + Normalized RMSE
LightGBM 0.1212
LightGBM "Day", "Year", "t2m" 지움 0.1148
LightGBM 'NaN'개수 센 칼럼 추가, optuna로 파라미터 재셋팅 0.0767
XGBoost 0.0755
-발생했던 문제
- lightgbm에서 early_stopping 오류
- 버전이 높아지면서 해당 함수가 사라짐
= 공식문서 참고하여 해결함
- 또 참고했던 일본 사이트
- GRU와 비교
- RMSE: 751330.461302125
- Normalized RMSE: 0.06337132770766911
계획
2023-08-31
- 시각화
- 어떤 칼럼을 뺐을 때 RMSE가 낮아지는지 실험

의외로 solar radiation을 빼니까 낮아졌다.

하지만 XGBoost에서는 넣어야 높아졌음.
-
여러 칼럼들을 추가하고 빼보는 실험
-
교수님과 면담
- 데이터셋
- MIP
- ERA5
- 영암(현재 훈련용으로 사용중)
- 김천(훈련용으로 사용예정)
- 모델
- 논문에서 사용한 Linear Model
- 분석
- 미래 데이터에 대해 예측해서 error표시하기
- 해야할 일
- 기존 데이터로 RMSE최대한 내리고 월별/계절별/년도별 합계 error확인해보기
- 정확도 최대한 높이기
- 전지구적인 미래 데이터에 대해서 미리 받아놓기(ERA5? MIP?)
- 미래 데이터에 대해서 예측하고 error 표시하기
- 기존의 선형 모델이랑 비교하여 기존 모델이 얼마나 안좋은지, 기존 모델의 오차는 어느정도인지 표시하여 비교하기
2023-09-01
- 아침 수업
- 청강 신청 메일 보내기
- 부스팅 모델 앙상블
Normalized RMSE 0.0687
- 시각화
(test dataset에 대한 예측결과 시각화 : 2021년&2022년 데이터)
예측값이 실제값보다 조금 높지만 경향은 잘 파악하는 것 같다. 오차를 조금 더 줄일 수 있으면 좋을듯.
Next Week's Agenda
- 데이터 정규화
(GRU도 정규화 하니 성능이 확 좋아져서 여기서 정규화하면 더 좋아질 것이라고 예상)
- 캣부스트 모델
- GRU와 앙상블해서 결과내기
주말에 할 일