EDA 및 전처리 결과 요약
- 인구데이터가 특정 시점 이전에 연도별 데이터만 존재 → 보간법을 이용해 월별 결측치 처리
- 지역별 인구의 편차가 차이가 큼 → 초/중/고등학생 인구의 절대값이 아닌 인구 비율 파생변수를 생성하여 인구구조효과 고려
- 연속형 종속변수(OCCRNC_CNT, PATNT_CNT)의 분포 치우침이 심하며 범주형 종속변수(OCCRNC_IND) 또한 지역별 불균형 문제가 확인됨
① 총 인구 데이터
월별 데이터가 2011년부터 존재하며 2010년 이전은 연말기준 인구로 제공되고 있다.
2010년 이전 연말 기준 인구를 해당 연도의 12월 자료로 처리하고 연중 인구는 보간(interpolate)하기로 하였다.
② 연령별 인구 데이터
③ 학교당학생수 데이터
결측 구간의 두 끝을 직선으로 연결하는 선형 보간은 결측 구간과 결측 외 구간이 부드럽게 연결되지 않는 문제점이 있다.
사회과학적으로는 점차적인 변화가 더욱 자연스러운 현상이므로 선형보간 대신 다항식을 이용한 다항보간을 사용하기로 결정하였다.
※ 선형보간법을 이용했을 때 결측치 처리 결과
※ 다항보간법을 이용했을 때 결측치 처리 결과
학생 인구의 경우 절대 수치와 별개로 총 인구 대비 비율에 해당하는 파생변수를 생성하여 인구 구성에 따른 식중독의 발생 차이가 모형에 반영될 수 있게 해주었다.
submit_df['POP_ELM_RATIO'] = submit_df['POP_ELM_CNT'] / submit_df['POP_GEN_CNT'] submit_df['POP_MID_RATIO'] = submit_df['POP_MID_CNT'] / submit_df['POP_GEN_CNT'] submit_df['POP_HIGH_RATIO'] = submit_df['POP_HIGH_CNT'] / submit_df['POP_GEN_CNT'] submit_df['POP_60P_RATIO'] = submit_df['POP_60P_CNT'] / submit_df['POP_GEN_CNT']
외부변수 테이블 결합 후 변수의 갯수는 총 38개이다.
2008년부터 데이터 입수가 가능한 POP_STU_PER_SCH 변수를 제외하고는 결측치는 확인되지 않는다.
데이터프레임 개요 | 결측치 검토 결과 |
---|---|
상자그림을 통해 검토해보면 히스토그램에서 확인한 바와 같이 PATNT_CNT, WTHR_MX_WNDSPD, WTHR_MX_PRESS 등 일부 변수에서 이상치로 판단되는 자료가 분포한다.
발생여부(OCCRNC_IND)는 상대적으로 고르게 분포하고 있는 것으로 보이나, 지역별로 나눠서 검토하면 서울, 경기 등 불균형이 심한 지역도 존재하는 것으로 나타난다.
이처럼 지역별로 타겟범주의 불균형이 있는 경우 지역을 고려하지 않고 전국단위 모델링을 했을 때 평균 수준을 예측함에 따라 불균형 지역의 모델 정확도가 매우 낮아지는 문제가 생길 수 있다.