method | RMSE |
---|---|
컬럼 추가x Linear regression | 1,007,295 |
Temp_Humidity_Interaction + Visibility_Cloud_Interaction | 799,374 |
계획
1) 수요일까지 : 어떤 모델 쓸 건지 정하고, 어떻게 사용되는지 정리
2) 목요일부터 : 전처리부터 다시 시작
오전 팀미팅
merge한 데이터에 대해서 조언 들었다.
할 것
회귀 vs 시계열 문제?
1) 회귀 : 날씨 관련 변수들(온도, 습도, 강수량 등)을 사용하여 'power'를 예측하는 모델
"온도가 1도 올라갈 때 전력 사용량은 얼마나 증가하는가?"와 같은 관계 찾기
2) 시계열 : 과거의 'power' 데이터와 날씨 관련 변수들을 사용하여 미래의 'power' 값을 예측
"내일의 전력 사용량은 얼마일까?"와 같은 예측 수행
'power'의 시간에 따른 변화를 살펴보면, 일정한 패턴이나 계절성이 있는 것처럼 보인다.
이러한 패턴을 포착하기 위해서
+또한 1년 후 혹은 내년 5월 발전량 사용량을 예측하고 싶다는 목적을 생각하면
=> 시계열을 이용해야 한다고 판단!
전처리 제대로 해서 머신러닝 vs 딥러닝(GRU) 비교해봐야겠음
밤시간 뺐음
'CloudForm(운형)'이라는 칼럼 안에는 'Sc(층적운)', 'Ci(권운)' 등 운형의 종류가 적혀있는데, 층적운과 권운이 동시에 보이는 경우에는 'ScCi'라는 표기법을 사용함.
여기서 만약 모든 값에 대해 원핫 인코딩을 사용할 경우 Sc와 ScCi에 대해 관련성이 사라지게 되서 ... 어떻게 전처리를 하면 좋을지?
=> 원핫 인코딩을 사용해서 해당하는 구름이 있는 경우 True로 표시 아닐경우 False로 표시!
Power 결측치 : 4년마다 2월 29일 정보가 전혀 없음. 2월 29일은 빼기로 함
결측치 처리 방법 :
Temperature(C) 14 #전값으로 채워넣음
Precipitation(mm) 39790
Humidity(%) 61 #전값으로 채워넣음
VaporPressure(hPa) 69 #후값으로 채워넣음
DewPointTemperature(C) 79 #후값으로 채워넣음
Sunshine(hr) 16 #전값으로 채워넣음
SolarRadiation(MJ/m2) 17 #전값으로 채워넣음
Snowfall(cm) 42937
SnowfallLast3Hours(cm) 43534
TotalCloudCoverage(1/10) 1648 #저녁값만 비어서 전값으로 채워넣음
MidLowCloudCoverage(1/10) 1054 #저녁값만 비어서 전값으로 채워넣음
CloudForm 11448
LowCloud(100m) 17998
Visibility(10m) 572 #전값으로 채워넣음
GroundState(code) 41293
PhenomenonNumber 30915
d2m 0
t2m 0
aerosol 0
power 0
나머지 변수들에 대해 랜덤 포레스트 회귀 모델을 사용하여 변수의 중요도를 평가함 :
Precipitation(mm): 2.58%
Snowfall(cm): 4.03%
SnowfallLast3Hours(cm): 0.31%❌
CloudForm: 78.11%
GroundState(code): 2.71%❌
PhenomenonNumber: 12.27%❌
❌-> 제외하기로 함
Humidity(%)
, Sunshine(hr)
, CloudForm
, LowCloud(100m)
에 대해서 얼마나 영향을 받는지 확인 : 습도 (Humidity(%)):
평균: 약 69.8%
최소값: 13%
최대값: 100%
중앙값: 70%
햇빛 시간 (Sunshine(hr)):
평균: 약 0.57시간
중앙값: 0.7시간
최대값: 1시간
구름 형태 (CloudForm):
Sc (Stratocumulus) 형태의 구름이 9,892회로 가장 많았습니다.
Ci (Cirrus) 형태의 구름이 7,497회로 그 다음으로 많았습니다.
그 외에도 여러 가지 구름 형태들이 있습니다.
구름의 높이 (LowCloud(100m)):
평균: 약 14.4m
중앙값: 10m
최대값: 76m
그리고 NaN값들은 '비가 안온 날'로 그냥 하기로 했고, -1로 대치!
습도 (Humidity(%)):
평균: 약 71.5%
최소값: 13%
최대값: 100%
중앙값: 72%
햇빛 시간 (Sunshine(hr)):
평균: 약 0.52시간
중앙값: 0.6시간
최대값: 1시간
구름 형태 (CloudForm):
Sc (Stratocumulus) 형태의 구름이 10,035회로 가장 많았습니다.
Ci (Cirrus) 형태의 구름이 7,469회로 그 다음으로 많았습니다.
그 외에도 여러 가지 구름 형태들이 있습니다.
구름의 높이 (LowCloud(100m)):
평균: 약 13.9m
중앙값: 10m
최대값: 76m
비가 얼마나 와야 power에 영향을 많이 주는지 시각화
눈이 얼마나 와야 power에 영향을 많이 주는지 시각화
많은 도움이 되었습니다, 감사합니다.