[프로젝트] 식중독 발생 예측 및 대시보드 제작 - (2) EDA 및 전처리

전도운·2024년 11월 4일
0

EDA 및 전처리 결과 요약

  1. 인구데이터가 특정 시점 이전에 연도별 데이터만 존재 → 보간법을 이용해 월별 결측치 처리
  2. 지역별 인구의 편차가 차이가 큼 → 초/중/고등학생 인구의 절대값이 아닌 인구 비율 파생변수를 생성하여 인구구조효과 고려
  3. 연속형 종속변수(OCCRNC_CNT, PATNT_CNT)의 분포 치우침이 심하며 범주형 종속변수(OCCRNC_IND) 또한 지역별 불균형 문제가 확인됨
  • 인구데이터 수집 관련 이슈

    ① 총 인구 데이터

    • 월별 데이터가 2011년부터 존재하며 2010년 이전은 연말기준 인구로 제공되고 있다.

    • 2010년 이전 연말 기준 인구를 해당 연도의 12월 자료로 처리하고 연중 인구는 보간(interpolate)하기로 하였다.

    ② 연령별 인구 데이터

    • 월별 데이터가 2008년부터 존재하며 2007년 이전은 연앙인구(전기말과 당기말 인구의 평균)로 제공되고 있다.
    • 2007년 이전 연앙인구를 해당 연도의 7월 자료로 처리하고 그 외 월별 인구는 보간하기로 하였다.

    ③ 학교당학생수 데이터

    • 자료를 2008년 이후만 공시하고 있어 우선 2008년 이후 자료만 입수하기로 하였다.
  • 데이터 보간(결측치 처리) 과정

    • 결측 구간의 두 끝을 직선으로 연결하는 선형 보간은 결측 구간과 결측 외 구간이 부드럽게 연결되지 않는 문제점이 있다.

    • 사회과학적으로는 점차적인 변화가 더욱 자연스러운 현상이므로 선형보간 대신 다항식을 이용한 다항보간을 사용하기로 결정하였다.

      ※ 선형보간법을 이용했을 때 결측치 처리 결과

      ※ 다항보간법을 이용했을 때 결측치 처리 결과

  • 파생변수 생성

    • 학생 인구의 경우 절대 수치와 별개로 총 인구 대비 비율에 해당하는 파생변수를 생성하여 인구 구성에 따른 식중독의 발생 차이가 모형에 반영될 수 있게 해주었다.

      submit_df['POP_ELM_RATIO'] = submit_df['POP_ELM_CNT'] / submit_df['POP_GEN_CNT']
      submit_df['POP_MID_RATIO'] = submit_df['POP_MID_CNT'] / submit_df['POP_GEN_CNT']
      submit_df['POP_HIGH_RATIO'] = submit_df['POP_HIGH_CNT'] / submit_df['POP_GEN_CNT']
      submit_df['POP_60P_RATIO'] = submit_df['POP_60P_CNT'] / submit_df['POP_GEN_CNT']
  • 데이터 정보

    • 외부변수 테이블 결합 후 변수의 갯수는 총 38개이다.

    • 2008년부터 데이터 입수가 가능한 POP_STU_PER_SCH 변수를 제외하고는 결측치는 확인되지 않는다.

      데이터프레임 개요결측치 검토 결과
  • 데이터 분포

    • 발생건수(OCCRNC_CNT), 발생환자수(PATNT_CNT)는 오른쪽으로 치우친 분포가 확인된다.

    • BOXCOX 변환을 통해 발생건수와 발생환자수의 분포를 대칭분포로 변환해보았으나 변환 후 데이터가 단절된 분포를 보이는 등 회귀 모델링에 부적절한 특징이 확인되었다.

    • 상자그림을 통해 검토해보면 히스토그램에서 확인한 바와 같이 PATNT_CNT, WTHR_MX_WNDSPD, WTHR_MX_PRESS 등 일부 변수에서 이상치로 판단되는 자료가 분포한다.

    • 발생여부(OCCRNC_IND)는 상대적으로 고르게 분포하고 있는 것으로 보이나, 지역별로 나눠서 검토하면 서울, 경기 등 불균형이 심한 지역도 존재하는 것으로 나타난다.

    • 이처럼 지역별로 타겟범주의 불균형이 있는 경우 지역을 고려하지 않고 전국단위 모델링을 했을 때 평균 수준을 예측함에 따라 불균형 지역의 모델 정확도가 매우 낮아지는 문제가 생길 수 있다.

profile
의미 있는 한걸음을 추구합니다.
post-custom-banner

0개의 댓글