[심화 프로젝트] 기획안 작성

Suhyeon Lee·2024년 11월 29일
0
날짜계획
11/29(금)2PM 주제 정하기
9PM 계획서 제출
12/2(월)데이터전처리(이상치,결측치) 완성
머신러닝
12/3(화)시각화 완성
12/4(수)PPT 들어갈 내용정리
12/5(목)PPT완성
12/6(금)발표스크립트 준비
발표영상녹화 및 투표
9PM PPT, 발표영상 제출
12/9(월)발표(10분)
  • 제출물

    • PPT
    • Python 코드 정리 파일
    • 대표 썸네일
      • 1280픽셀 * 720픽셀 (16:9 종횡비)
  • 유의사항

    • ETA(Estimated Time of Arrival; 도착예정시간)
      • 마감기한 맞추기
    • 주제
      • ONAIR 순서 지켜 발표
  • 추가 평가항목
    • 기획안과 최종 결과물의 일치여부
      1. 분석목표 일치: 설정분석목표와 결과물 잘 맞는지 평가)
      2. 분석방법 적용: 제시된 분석방법이 실제결과에 반영되었는지 평가
      3. 변경 사항의 적절성: 기획안과 다른 부분 있을 경우, 변경이 합리적이고 목적에 맞는지 평가

기획안 정하기

  • 개요

    • 대구에서 발생한 교통사고 데이터 바탕, 인명 피해 심각도(ECLO) 예측 AI모델 개발 프로젝트
    • 공간 정보 및 사고 관련 정보 활용 사고 위험도 정량평가 통해 사고예방 및 안전정책수립 기여목표
  • 주제

    • 대구 지역의 교통사고 시공간 및 환경 정보를 활용하여 사고위험도(ECLO)를 예측하는 AI 모델 개발
  • 목표

    1. 교통사고 데이터와 대구 지역 특화 정보를 바탕으로 사고 위험도를 예측하는 모델 설계
    2. 사고 위험도를 낮추기 위한 인사이트 도출
    3. 최적화된 AI 모델로 안전 정책 및 사고 예방 대책 지원
    4. 교통사고 데이터와 ECLO 예측 모델을 활용하여 자동차 보험료 책정의 근거를 보험사에게 제공하고, 사고 예방을 위한 데이터 기반 인사이트 제공

제출한 기획안 내용

  • 프로젝트명: 프로젝트 달달
    (달구벌에서 달리는 자동차 사고 예측)

  • 프로젝트 목표:
    대구 교통사고 피해예측을 위해 ECLO를 포함한 시공간 데이터를 학습시킨 후 시공간데이터만으로 예측가능한 회귀모델을 구축하고 이를 통해 사고예방대책 마련 및 보험사정보제공을 목표로 한다.

  • 프로젝트 핵심내용:

    • 데이터 전처리 → 데이터 탐색 및 시각화 → 회귀 모델 설계 순서로 분석을 할 예정이며, 외부데이터와 train 정보간 회귀분석 및 ECLO와 지역별 시간대별 모델학습을 하여 예측모델 평가 후 대책마련 및 정보제공

데이터 살펴보기

  • 종속변수: ECLO
    • ECLO=(사망자 수×10)+(중상자 수×5)+(경상자 수×3)+(부상자 수×1)
  • 독립변수(★: train data에만 있는 column)
    • 사고일시
      • 시계열 → 범주형이라고 함
    • 요일
      • 범주형
    • 기상상태
      • 범주형
    • 시군구
      • 범주형
    • 도로형태
      • 범주형
    • 노면상태
      • 범주형
    • 사고유형
      • 범주형
    • ★ 사고유형 - 세부분류
      • 범주형
    • ★ 법규위반
      • 범주형
    • ★ 가해운전자 차종
      • 범주형
    • ★ 가해운전자 성별
      • 범주형 → 이진 변수
    • ★ 가해운전자 연령
      • 수치형; 연속형(이지만 범주로 가능)
    • ★ 가해운전자 상해정도
      • 범주형
    • ★ 피해운전자 차종
      • 범주형
    • ★ 피해운전자 성별
      • 범주형 → 이진 변수
    • ★ 피해운전자 연령
      • 수치형; 연속형(이지만 범주로 가능)
    • ★ 피해운전자 상해정도
      • 범주형

시군구별 연령대, 사고 시각화해서 변수간 상관관계 봐도 좋을 것 같음

대책마련 & 정보제공 예상

  • ECLO 높은 구간: 공간 데이터

    • 신호등 추가
    • 캠페인 증가
    • 위험구간 안전펜스
    • 야광 보조등 설치
    • 도로확인
    • 노후화 카메라 정비
    • 사고 다발구역 추정되는 구·동 특별 대책
  • 요일 및 시간대: 시간 데이터

    • 대중교통 이용 교통비 할인
    • 졸음운전 방지 해결
  • 차종(시간 남으면 추가 분석)

    • 차종에 따라 조금 더 정확한 보험료 비율 (이륜/승용/화물/원동기-전동킥보드)
  • 연령대(시간 남으면 추가 분석)

    • 가해자 피해자 나이분석 가능
      • 고령운전자 이슈
      • 어린이사고방지

구역 타겟

  • 보험료 책정 제안에서 차별화
  • 안전 정책 및 예방대책 지원
    → ECLO 높은 구간 파악하여 신호등 추가 등 인프라 구축, 캠페인 증가
    ECLO 예측 모델 활용 보험료 책정의 근거제공

프로젝트 전체 흐름 정리

1.Objective (목표)

-프로젝트의 목표:
대구 교통사고 피해예측을 위해 ECLO관련 시공간 데이터 및 차종/운전자 연령대 데이터 회귀분석을 통해 사고예방대책 마련 및 보험사 정보제공을 목표로 한다.

-예상 결과물:

  • ECLO 높은 구간: 공간 데이터

    • 신호등 추가
    • 캠페인 증가
    • 위험구간 안전펜스
    • 야광 보조등 설치
    • 도로확인
    • 노후화 카메라 정비
    • 사고 다발구역 추정되는 구·동 특별 대책
  • 요일 및 시간대: 시간 데이터

    • 대중교통 이용 교통비 할인
    • 졸음운전 방지 해결
  • 차종(시간 남으면 추가 분석)

    • 차종에 따라 조금 더 정확한 보험료 비율 (이륜/승용/화물/원동기-전동킥보드)
  • 연령대(시간 남으면 추가 분석)

    • 가해자 피해자 나이분석 가능
      • 고령운전자 이슈
      • 어린이사고방지

2.Necessary data (데이터)

  • 기간
    • 2019년부터 2022년까지의 데이터를 바탕으로 회귀 모델 구축
  • 주요 데이터
    • 대구 지역 교통사고 데이터 (train.csv, test.csv)
    • 대구의 교통 환경 관련 추가 데이터 (대구 빅데이터 마트 데이터, 대구 보안등 정보, 대구 어린이 보호 구역 정보, 대구 CCTV 정보 등)
    • 전국 교통사고 데이터 (countrywide_accident.csv)

3.Analytics (분석)

분석방법

  • 분석기법, 모델선정, 절차설명
    • 모델 학습:
      (다양한 머신러닝 알고리즘 사용해 예측 모델 학습)
      • 선형회귀모델
      • xgboost
      • lightgbm
      • catboost
    • 모델 평가 및 선택
      (교차검증: 여러번 데이터 나누어 학습, 평가하여 모델의 일반화 성능확인)
      (평가지표: 정확도, 정밀도, 재현율, F1점수, AUC 등 사용 모델성능평가)

분석 계획

1) 데이터 전처리

  • 결측값 처리: train.csv 및 추가 데이터 내 결측치 확인 및 처리
  • 범주형 변수 인코딩: 지역, 단속 유형 등 범주형 변수는 원-핫 인코딩 처리
  • 스케일링: 수치형 변수 표준화 및 정규화 적용
  • 데이터 병합: 추가 데이터를 사고 데이터와 병합하여 특성 강화
    2) 데이터 탐색 및 시각화
  • 변수 간 상관관계 분석
    • ECLO와 주요 변수 간 관계를 상관계수 및 시각화로 탐색
  • 지역별 사고 분포 시각화
    • 대구 지역의 사고 발생 위치를 지도 기반으로 시각화
  • 시간대 및 계절별 분석
    • 사고 발생 시간 및 계절에 따른 ECLO 분포 탐색
      3) 회귀 모델 설계
  • 모델 종류
    • 선형 회귀: 기본 모델로 변수 중요도 해석
    • 랜덤 포레스트 회귀: 비선형 관계 학습
    • 그래디언트 부스팅 모델 (GBM): 예측 성능 최적화
    • 딥러닝 모델: 시공간 특성을 반영한 모델 설계
  • 모델 비교
    • RMSE, MAE, R² 등의 평가지표로 모델 성능 비교
      4) 하이퍼파라미터 튜닝
  • GridSearchCV 또는 RandomSearchCV를 사용해 최적화
  • 필요한 경우 optuna를 사용

4. Interpretation (해석)

-분석결과해석:
:모델성능평가: (최종모델의 성능평가, 주요성능지표 분석)
:특성중요도 분석: (모델의 특성 중요도 분석, 고객이탈이나 특정영향 미치는 주요요인 식별)
:인사이트 도출: 인사이트 및 향후 전략 수립위한 제안제시

기대 결과

  1. 정확한 ECLO 예측 모델
    • 데이터 기반으로 교통사고 인명피해 심각도를 예측
  2. 사고 위험 요인 도출
    • 시간, 장소, 환경적 요인 중 주요 위험 요인을 식별
  3. 실질적 인사이트 제공
    • 대구 지역 맞춤형 안전 정책 제안
    • 위험도가 높은 지역 및 시간대를 타겟으로 한 예방적 조치
  4. 자동차 보험 회사에서 필요한 인사이트 제공
    • 정교한 보험료 산정
      • ECLO를 활용해 사고 위험도에 따른 개인 맞춤형 보험료 책정
    • 리스크 관리 강화
      • 사고 위험 지역 및 시간대를 기반으로 보험사 손해율 감소
    • 신규 보험상품 개발
      • 특정 지역/시간대 맞춤형 보험상품 출시
    • 고객 신뢰도 증대
      • 데이터 기반 투명한 보험 프로세스로 고객 만족도 향상

5.Report (보고)

  • 활용방안 보고
    -구조와 형식 정의
    • 어떤 정보 포함할 것인지 설명
  1. 정책 수립
    • ECLO 예측 결과를 기반으로 위험 지역 및 시간대에 대한 정책 마련
  2. 시스템 개발
    • 실시간 사고 위험 경보 시스템 구현
  3. 교육 및 캠페인
    • 사고 위험도가 높은 지역 중심으로 안전 교육 및 캠페인 강화
  4. 자동차 보험
    • 보험료 차등화, 리스크 관리 도구, 특화 상품 설계, 안전 인센티브 제공

추가 공부

Catboost 설명

범주형 데이터 EDA 팁

범주형 변수 탐색

그래프 위 글씨

그래프 인사이트

profile
2 B R 0 2 B

0개의 댓글

관련 채용 정보