정식일 이후 16주 동안 단위 면적당 최소 에너지 비용(누적 난방용 도시가스 사용량)으로 최대 수확량을 예측할 수 있는 환경/생육 모델
EDA
Exploratory Data Analysis
: 탐색적 데이터 분석은 데이터를 이해하고 그 안에 포함된 패턴, 관계, 이상치, 누락값 등을 발견하기 위한 과정이다.
%pip install dataprep
from dataprep.eda import create_report
# data prep report 생성 및 보기
classic_report = create_report(df)
classic_report.save('classic_final_report') # save report to local disk
classic_report.show_browser()
결측치 처리 및 스케일링 등과 관련된 부분은 다음 게시글에 자세하게 설명했다.
파생변수 생성
temp_difference
: 실내온도(inTp
)와 실외온도(outTp
)의 차이sunlight_to_otmsuplyqy_ratio
: 일사량(acSlrdQy
)과 'otmsuplyqy'의 비율7day_avg_inTp
: 실내온도(inTp
)의 7일 이동평균7day_avg_inHd
: 실내습도(inHd
)의 7일 이동평균temp_humidity_interaction
: 실내온도(inTp
)와 습도(inHd
)의 상호작용season
: 월을 기반으로 봄, 여름, 가을, 겨울을 나타내는 범주형 변수7day_avg_inTp
: 실내온도(inTp
)의 7일 이동평균7day_avg_inHd
: 실내습도(inHd
)의 7일 이동평균season
에서 파생된 봄, 여름, 가을, 겨울을 나타내는 이진 변수위와 같은 파생변수를 실험적으로 추가해봤다. 너무 많은 파생 변수를 추가하면 모델이 과적합될 위험이 있기 때문에, 파생 변수를 추가한 후에는 항상 교차 검증 등을 통해 모델의 성능을 평가해야 한다고 한다. 또한, 도메인 지식을 활용해 더 의미 있는 파생 변수를 생성하면 더 좋은 결과를 얻을 수 있었을 것 같다.