최박사님이 터미널로 데이터를 주셔서 이번에 나도 터미널에서 작업해보기로 함.
간단하게 영암 데이터를 이용해서 모든 머신러닝 모델 돌려봄.
그런데 결과중 예측값이 계단처럼 끊겨서 출력됨.
데이터에 문제가 있다고 판단했음.
데이터 살펴보니 3군데(영암 포함) 날씨 데이터가 비어있는거 확인, 재 다운로드 받아서 전처리 했음.
계단으로 나오는 결과값 해결하였고 모든 머신러닝 모델 돌려서 MAE확인.
Random Forest : 0.020510363854668128
Gradient Boosting : 0.04209246326215783
AdaBoost : 0.06551941307637829
Extra Trees : 0.017910326212869684
CatBoost : 0.020321122194744065
XGBoost : 0.028188804068385843
NGBoost : 0.02263180883197598
Catboost가 가장 잘 나왔다.
머신러닝 돌린 값을 다시 입력값으로 넣어서 새로운 모델(여기서는 신경망)에 넣는 스태킹 방법을 사용해보자 생각했음.
스태킹 방법 사용하였을 때 MAE가 0.02032에서 0.02006으로 줄었음.
하지만 그렇게 좋은 방법은 아닌 것 같음.
논문 Introduction 적었음. 11월 안으로 완성할 수 있을까 ;;;
추가적으로 할 수 있는 작업들:
선형모델과 비교해보기 위해서 선형모델로 전체 지역 돌려봤고,
기본 Catboost모델 사용해서 다른 지역 학습해봤다.
| 지역 | 선형모델 MAE | CatBoost MAE |
|105| 11.078| 0.035|
|112|10.669| 0.028|
|119| 10.230|0.035|
|121|0.147| 0.139|
|130|0.155|0.148|
|159|11.041|0.028|
|165|10.297|0.020|
|239|8.664|0.057|
|279|0.142|0.133|
|295|0.182|0.170|
퇴근하기 전에 모델을 조금 고쳤더니 영암지역에서 0.020 -> 0.017* (오차율 1.7%) 으로 줄었다.
갑자기 생각난건데
선형모델중에서 너무 이상하게 안좋은 지역들의 Solar Radiation값들이 빠진 것 같다.
저번 데이터에서는 이거 채워넣었었는데, 이번에 데이터가 바뀌면서 값이 그대로 빠져있는 듯.
다음주에 해결해야지.
저번에는 선형모델이 더 좋은 지역이 몇군데 있었는데,
이번에는 모든 지역에서 머신러닝 모델의 예측률이 높다.
모델은 달라지지 않았으니 저번에 사용했던 데이터가 역시 문제였던걸로.
선형모델보다 좋은건 확인되었으니 이제 모델을 제대로 빌드해보자.
2023 한국인공지능학회 추계학술대회
후기.
세션 정리는 아래부분에 있는데 별로 정리는 아니고 그냥 들으면서 와다다 필기한 내용...