생각보다 데이터 전처리가 정말 어렵다.
전처리가 제대로 안되면 할 수 있는 게 아무것도 없다.
분석 목적도 명확하지 않으면 마찬가지.
자격증 공부할 땐 목적이 뚜렷하지 않아도 분석이 가능하다고 했는데
어떻게...?
해당 내용은 오늘 데이터 분석 진행하며 토론한 내용
가장 교통사고가 많이 일어난 날씨
날씨별 사고율이 높은 구 (ex. 교통량과 상관없이 비에 취약한 동작구)
가장 교통사고가 많이 일어난 구 - 그 구의 교통량
대중교통 이용량 : 원래 유동인구가 많은 지역
가장 교통사고가 적은 구
교통량 적다? 안전하다? 주거지역?
소계 수정 후, 각 날씨별 교통사고수의 비율 구하기 / 이동량 대비 사고가 많은 날씨 찾기
전체 교통량에 비해 대중교통 이용량이 가장 많은 날들의 특징? → 데이터 경향성이 보이면 가능할듯
(많은날 상위 20개 정도를 뽑아서, 공통점 찾아보기)
사건이 일어난 건수에 비해서 사망/부상자가 가장 많은 날 몇 개 뽑아서 공통점