원인물질별 모델링 및 독립변수 시계열 모델링 결과 요약
- 지역별 식중독 예측 모델에서는 발생 조건이 상이한 원인물질별 발생 확률을 제시하고 있지 않음 → 원인물질별 식중독 발생 확률까지 제시하도록 모형을 개선
- 구현한 두 모델은 독립변수와 식중독 발생확률의 관계를 설명할 수는 있으나 향후 시간의 흐름에 따른 변화를 예측할 수 없음 → 독립변수에 대한 시계열 예측치 도출 후 모형에 대입 시도
원인물질별(병원성대장균, 노로바이러스 등)로 식중독의 유행 조건과 예방 대책이 각각 다르나 지역별 모델에서는 이를 고려하지 않고 식중독 발생 확률만 예측하고 있다.
이에 원인물질별 식중독 발생 확률까지 제시하도록 모형을 개선하여 향후 식중독 예방을 위한 모형의 활용성을 강화하고자 했다.
원인물질 및 월별 식중독 발생 건수 히트맵 시각화
(계절별 주요 원인물질의 차이가 나타난다)
지역별 모델링과 마찬가지로 발생여부(OCCRNC_IND)를 종속변수로 주요 원인물질에 대해서 개별 모형을 만들었다. 원인물질별 모형은 계절적(기상적) 발생 양상이 뚜렷하기때문에 전반적으로 준수한 성능을 보였다.
지역별 및 원인물질별 식중독 예측모델은 독립변수의 변화에 따른 식중독 발생확률의 변화를 예측할 수는 있지만 시간의 흐름에 따른 변화를 예측할 수는 없다.
이에 대한 대안으로 시계열 모델을 구현해볼 수 있으나 SARIMA는 독립변수를 포함시키지 못하는 단점이 있었으며, SARIMAX는 변수 간의 선형조합을 구현하여 부스팅계열의 앙상블모델에 비해 예측력이 떨어지는 문제가 있었다.
이에 본 프로젝트에서는 독립변수를 각각 시계열 예측하여 각 예측치를 미리 구현한 식중독 예측모델에 대입하여 시계열적 예측치를 도출해내고자 하였다.
머신러닝 계열 시계열 모델링 알고리즘인 Prophet 모형을 이용하였으며 시험데이터에 대한 모형의 상당수가 0.8을 초과하는 R2 Score를 보이는 등 우수한 성능을 보였다.
독립변수 시계열 모델링 성능 분포
시계열 모델링한 독립변수의 2023년도 예측치를 식중독 확률 예측모델에 대입하여 나온 결과와 실제 2023년 식중독 발생 여부를 비교하여 성능을 측정한 결과 0.7 정도의 재현율을 보였다.