날짜 | 계획 |
---|
11/29(금) | 2PM 주제 정하기 |
| 9PM 계획서 제출 |
12/2(월) | 데이터전처리(이상치,결측치) 완성 |
| 머신러닝 |
12/3(화) | 시각화 완성 |
12/4(수) | PPT 들어갈 내용정리 |
12/5(목) | PPT완성 |
12/6(금) | 발표스크립트 준비 |
| 발표영상녹화 및 투표 |
| 9PM PPT, 발표영상 제출 |
12/9(월) | 발표(10분) |
-
제출물
- PPT
- Python 코드 정리 파일
- 대표 썸네일
- 1280픽셀 * 720픽셀 (16:9 종횡비)
-
유의사항
- ETA(Estimated Time of Arrival; 도착예정시간)
- 주제
- 추가 평가항목
- 기획안과 최종 결과물의 일치여부
- 분석목표 일치: 설정분석목표와 결과물 잘 맞는지 평가)
- 분석방법 적용: 제시된 분석방법이 실제결과에 반영되었는지 평가
- 변경 사항의 적절성: 기획안과 다른 부분 있을 경우, 변경이 합리적이고 목적에 맞는지 평가
기획안 정하기
-
개요
- 대구에서 발생한 교통사고 데이터 바탕, 인명 피해 심각도(ECLO) 예측 AI모델 개발 프로젝트
- 공간 정보 및 사고 관련 정보 활용 사고 위험도 정량평가 통해 사고예방 및 안전정책수립 기여목표
-
주제
- 대구 지역의 교통사고 시공간 및 환경 정보를 활용하여 사고위험도(ECLO)를 예측하는 AI 모델 개발
-
목표
- 교통사고 데이터와 대구 지역 특화 정보를 바탕으로 사고 위험도를 예측하는 모델 설계
- 사고 위험도를 낮추기 위한 인사이트 도출
- 최적화된 AI 모델로 안전 정책 및 사고 예방 대책 지원
- 교통사고 데이터와 ECLO 예측 모델을 활용하여 자동차 보험료 책정의 근거를 보험사에게 제공하고, 사고 예방을 위한 데이터 기반 인사이트 제공
제출한 기획안 내용
데이터 살펴보기
- 종속변수: ECLO
- ECLO=(사망자 수×10)+(중상자 수×5)+(경상자 수×3)+(부상자 수×1)
- 독립변수(★: train data에만 있는 column)
- 사고일시
- 요일
- 기상상태
- 시군구
- 도로형태
- 노면상태
- 사고유형
- ★ 사고유형 - 세부분류
- ★ 법규위반
- ★ 가해운전자 차종
- ★ 가해운전자 성별
- ★ 가해운전자 연령
- ★ 가해운전자 상해정도
- ★ 피해운전자 차종
- ★ 피해운전자 성별
- ★ 피해운전자 연령
- ★ 피해운전자 상해정도
시군구별 연령대, 사고 시각화해서 변수간 상관관계 봐도 좋을 것 같음
대책마련 & 정보제공 예상
-
ECLO 높은 구간: 공간 데이터
- 신호등 추가
- 캠페인 증가
- 위험구간 안전펜스
- 야광 보조등 설치
- 도로확인
- 노후화 카메라 정비
- 사고 다발구역 추정되는 구·동 특별 대책
-
요일 및 시간대: 시간 데이터
- 대중교통 이용 교통비 할인
- 졸음운전 방지 해결
-
차종(시간 남으면 추가 분석)
- 차종에 따라 조금 더 정확한 보험료 비율 (이륜/승용/화물/원동기-전동킥보드)
-
연령대(시간 남으면 추가 분석)
구역 타겟
- 보험료 책정 제안에서 차별화
- 안전 정책 및 예방대책 지원
→ ECLO 높은 구간 파악하여 신호등 추가 등 인프라 구축, 캠페인 증가
ECLO 예측 모델 활용 보험료 책정의 근거제공
프로젝트 전체 흐름 정리
1.Objective (목표)
-프로젝트의 목표:
대구 교통사고 피해예측을 위해 ECLO관련 시공간 데이터 및 차종/운전자 연령대 데이터 회귀분석을 통해 사고예방대책 마련 및 보험사 정보제공을 목표로 한다.
-예상 결과물:
-
ECLO 높은 구간: 공간 데이터
- 신호등 추가
- 캠페인 증가
- 위험구간 안전펜스
- 야광 보조등 설치
- 도로확인
- 노후화 카메라 정비
- 사고 다발구역 추정되는 구·동 특별 대책
-
요일 및 시간대: 시간 데이터
- 대중교통 이용 교통비 할인
- 졸음운전 방지 해결
-
차종(시간 남으면 추가 분석)
- 차종에 따라 조금 더 정확한 보험료 비율 (이륜/승용/화물/원동기-전동킥보드)
-
연령대(시간 남으면 추가 분석)
2.Necessary data (데이터)
- 기간
- 2019년부터 2022년까지의 데이터를 바탕으로 회귀 모델 구축
- 주요 데이터
- 대구 지역 교통사고 데이터 (train.csv, test.csv)
- 대구의 교통 환경 관련 추가 데이터 (대구 빅데이터 마트 데이터, 대구 보안등 정보, 대구 어린이 보호 구역 정보, 대구 CCTV 정보 등)
- 전국 교통사고 데이터 (countrywide_accident.csv)
3.Analytics (분석)
분석방법
- 분석기법, 모델선정, 절차설명
- 모델 학습:
(다양한 머신러닝 알고리즘 사용해 예측 모델 학습)
- 선형회귀모델
- xgboost
- lightgbm
- catboost
- 모델 평가 및 선택
(교차검증: 여러번 데이터 나누어 학습, 평가하여 모델의 일반화 성능확인)
(평가지표: 정확도, 정밀도, 재현율, F1점수, AUC 등 사용 모델성능평가)
분석 계획
1) 데이터 전처리
- 결측값 처리: train.csv 및 추가 데이터 내 결측치 확인 및 처리
- 범주형 변수 인코딩: 지역, 단속 유형 등 범주형 변수는 원-핫 인코딩 처리
- 스케일링: 수치형 변수 표준화 및 정규화 적용
- 데이터 병합: 추가 데이터를 사고 데이터와 병합하여 특성 강화
2) 데이터 탐색 및 시각화
- 변수 간 상관관계 분석
- ECLO와 주요 변수 간 관계를 상관계수 및 시각화로 탐색
- 지역별 사고 분포 시각화
- 대구 지역의 사고 발생 위치를 지도 기반으로 시각화
- 시간대 및 계절별 분석
- 사고 발생 시간 및 계절에 따른 ECLO 분포 탐색
3) 회귀 모델 설계
- 모델 종류
- 선형 회귀: 기본 모델로 변수 중요도 해석
- 랜덤 포레스트 회귀: 비선형 관계 학습
- 그래디언트 부스팅 모델 (GBM): 예측 성능 최적화
- 딥러닝 모델: 시공간 특성을 반영한 모델 설계
- 모델 비교
- RMSE, MAE, R² 등의 평가지표로 모델 성능 비교
4) 하이퍼파라미터 튜닝
- GridSearchCV 또는 RandomSearchCV를 사용해 최적화
- 필요한 경우 optuna를 사용
4. Interpretation (해석)
-분석결과해석:
:모델성능평가: (최종모델의 성능평가, 주요성능지표 분석)
:특성중요도 분석: (모델의 특성 중요도 분석, 고객이탈이나 특정영향 미치는 주요요인 식별)
:인사이트 도출: 인사이트 및 향후 전략 수립위한 제안제시
기대 결과
- 정확한 ECLO 예측 모델
- 데이터 기반으로 교통사고 인명피해 심각도를 예측
- 사고 위험 요인 도출
- 시간, 장소, 환경적 요인 중 주요 위험 요인을 식별
- 실질적 인사이트 제공
- 대구 지역 맞춤형 안전 정책 제안
- 위험도가 높은 지역 및 시간대를 타겟으로 한 예방적 조치
- 자동차 보험 회사에서 필요한 인사이트 제공
- 정교한 보험료 산정
- ECLO를 활용해 사고 위험도에 따른 개인 맞춤형 보험료 책정
- 리스크 관리 강화
- 사고 위험 지역 및 시간대를 기반으로 보험사 손해율 감소
- 신규 보험상품 개발
- 고객 신뢰도 증대
- 데이터 기반 투명한 보험 프로세스로 고객 만족도 향상
5.Report (보고)
- 정책 수립
- ECLO 예측 결과를 기반으로 위험 지역 및 시간대에 대한 정책 마련
- 시스템 개발
- 교육 및 캠페인
- 사고 위험도가 높은 지역 중심으로 안전 교육 및 캠페인 강화
- 자동차 보험
- 보험료 차등화, 리스크 관리 도구, 특화 상품 설계, 안전 인센티브 제공
추가 공부
Catboost 설명
범주형 데이터 EDA 팁
범주형 변수 탐색
그래프 위 글씨
그래프 인사이트