[프로젝트] 식중독 발생 예측 및 대시보드 제작 - (4) 원인물질별 모델링 및 독립변수 시계열 모델링

전도운·2024년 11월 5일
0

원인물질별 모델링 및 독립변수 시계열 모델링 결과 요약

  1. 지역별 식중독 예측 모델에서는 발생 조건이 상이한 원인물질별 발생 확률을 제시하고 있지 않음 → 원인물질별 식중독 발생 확률까지 제시하도록 모형을 개선
  2. 구현한 두 모델은 독립변수와 식중독 발생확률의 관계를 설명할 수는 있으나 향후 시간의 흐름에 따른 변화를 예측할 수 없음 → 독립변수에 대한 시계열 예측치 도출 후 모형에 대입 시도
  • 원인물질별 모형 모델링의 필요성

    • 원인물질별(병원성대장균, 노로바이러스 등)로 식중독의 유행 조건과 예방 대책이 각각 다르나 지역별 모델에서는 이를 고려하지 않고 식중독 발생 확률만 예측하고 있다.

    • 이에 원인물질별 식중독 발생 확률까지 제시하도록 모형을 개선하여 향후 식중독 예방을 위한 모형의 활용성을 강화하고자 했다.

      원인물질 및 월별 식중독 발생 건수 히트맵 시각화
      (계절별 주요 원인물질의 차이가 나타난다)

  • 원인물질별 모델링 결과

    • 지역별 모델링과 마찬가지로 발생여부(OCCRNC_IND)를 종속변수로 주요 원인물질에 대해서 개별 모형을 만들었다. 원인물질별 모형은 계절적(기상적) 발생 양상이 뚜렷하기때문에 전반적으로 준수한 성능을 보였다.

  • 식중독 시계열 예측 모형 구현 과정

    • 지역별 및 원인물질별 식중독 예측모델은 독립변수의 변화에 따른 식중독 발생확률의 변화를 예측할 수는 있지만 시간의 흐름에 따른 변화를 예측할 수는 없다.

    • 이에 대한 대안으로 시계열 모델을 구현해볼 수 있으나 SARIMA는 독립변수를 포함시키지 못하는 단점이 있었으며, SARIMAX는 변수 간의 선형조합을 구현하여 부스팅계열의 앙상블모델에 비해 예측력이 떨어지는 문제가 있었다.

    • 이에 본 프로젝트에서는 독립변수를 각각 시계열 예측하여 각 예측치를 미리 구현한 식중독 예측모델에 대입하여 시계열적 예측치를 도출해내고자 하였다.

  • 독립변수 시계열 모델링 결과

    • 머신러닝 계열 시계열 모델링 알고리즘인 Prophet 모형을 이용하였으며 시험데이터에 대한 모형의 상당수가 0.8을 초과하는 R2 Score를 보이는 등 우수한 성능을 보였다.

      독립변수 시계열 모델링 성능 분포

    • 시계열 모델링한 독립변수의 2023년도 예측치를 식중독 확률 예측모델에 대입하여 나온 결과와 실제 2023년 식중독 발생 여부를 비교하여 성능을 측정한 결과 0.7 정도의 재현율을 보였다.

profile
의미 있는 한걸음을 추구합니다.
post-custom-banner

0개의 댓글