day 020 KPMG Future Academy

sottuggung·2024년 12월 17일
0

KPMG-future-academy

목록 보기
20/41

KPMG Future Academy AI 활용 데이터 분석가 3기 19일차 수업을 2024년 12월 13일에 참석했다.

  1. 미니프로젝트
    1.1. 아이데이션 및 데이터 수집, 분석

1. 미니프로젝트

1.1. 아이데이션 및 데이터 수집, 분석

아래와 같은 방법으로 네 개 팀을 구성하여 미니프로젝트를 진행하였다.

문제 정의하고 DX, AX 적용한 솔루션 제시
기획서 (생성형 AI 활용)

공공데이터 등 활용

아이디데이션 수행
1. 각자 주제 탐색 30분
2. 비즈니스 환경 분석 약 2시간
3. 실제 데이터 수집 및 분석

  • 시장, 고객 세분화하여 분석 수행
  • 부족한 데이터가 있는 경우 웹 스크래핑 진행
  • AI 활용 발표용 PPT 제작 (12월 16일 발표)

범죄율 예측 및 영향 요인 분석

1. 목표: 범죄율(종속변수 y)에 영향을 미치는 주요 독립변수(x) 식별

2. 데이터 과학적 방법론:
- 다중 회귀 분석 또는 머신러닝 모델(랜덤 포레스트, 그라디언트 부스팅)을 활용
- 피처 선택(Feature Selection) 및 중요도 분석
- 인과관계(Causal Inference) 접근

3. 고려해야 할 주요 변수들:
- 사회경제적 요인: 실업률, 소득 불평등
- 인구통계학적 요인: 연령 분포, 인구 밀도
- 환경적 요인: 도시 구조, 조명 상태, 방치된 건물 수
- 법 집행 요인: 경찰 배치 밀도, 순찰 빈도
- 시간적 요인: 계절, 시간대, 요일

4. 접근 방식:
- 데이터 전처리
- 탐색적 데이터 분석(EDA)
- 피처 엔지니어링
- 모델 학습 및 검증
- 인과관계 분석

결과
- 매개변수 도출
- 범죄율에 통계적으로 유의미한 영향을 미치는 독립변수들의 계수(coefficient)와 중요도를 찾는 것이 목표입니다.

예상 모델 형태:
-y = f(x1, x2, x3, ..., xn)
- y: 범죄율
- x1, x2...: 독립변수들
- f: 최적의 예측 함수 (회귀 모델)

방식 참고 :
https://www.esrikr.com/arcgis-guide/portal4arcgis_4/

위험지수

https://claude.site/artifacts/32a5fe1b-6dc1-4398-a125-c83df19639ce

https://opendata.cityofnewyork.us/

NYPD Compstat
https://www.seoul.co.kr/news/plan/2014/11/07/20141107008004

경찰력 재배치를 위한 데이터 과학적 분석 접근 전략
1. 다중 분석 모델 적용
제안하신 다중 회귀 분석과 머신러닝 모델(랜덤 포레스트, 그라디언트 부스팅)은 범죄율 예측에 매우 적절한 선택입니다. 각 모델의 장점은 다음과 같습니다:

다중 회귀 분석: 선형적 관계 파악, 계수의 직접적 해석
- 랜덤 포레스트: 비선형성 포착, 피처 중요도 제공
- 그라디언트 부스팅: 고성능 예측, 복잡한 상호작용 모델링

2. 피처 선택 및 중요도 분석 방법

2-1. 상관관계 분석
- 각 변수 간 상관관계 매트릭스 생성
- 다중공선성 확인 및 관리

2-2. 피처 중요도 평가 기법
- 카이제곱 검정
- 상호정보량(Mutual Information)
- SHAP(SHapley Additive exPlanations) 값

3. 인과관계 분석 접근법
3-2. 성향 점수 매칭(Propensity Score Matching)
3-3. 회귀 불연속 설계(Regression Discontinuity Design)
3-4. 도구변수(Instrumental Variables) 활용

출처 : Claude 3
예상 모델 성능 시뮬레이션
잠재적 범죄 감소 시나리오
1. 환경요인 최적화 시 예상 효과:
- 범죄율 10-15% 감소 예측 (추정치)
- 미결 건수 20-25% 감소 (추정치)
- 검거율 8-12% 증대 (추정치)


2. 주요 영향 요인별 추정 감소율:
- 조명 개선: 범죄율 5-7% 감소 (추정치)
- 방치된 건물 관리: 범죄율 3-5% 감소 (추정치)
- 경찰 순찰 밀도 증가: 범죄율 4-6% 감소 (추정치)

권장 추가 분석 방법
1. 시계열 분석
- ARIMA 모델을 통한 계절성 및 트렌드 파악

2. 공간 통계 분석
- 지리적 핫스팟 매핑
- 공간적 자기상관성 분석

3. 앙상블 모델링
- 다양한 모델 결과 통합
- 예측력 및 안정성 향상

데이터 윤리 및 편향성 고려사항
- 데이터의 대표성 확인
- 잠재적 편향 식별 및 완화
- 개인정보 보호 및 비식별화 조치

결론적 제언
1. 데이터 기반 증거 중심 접근
2. 지속적인 모델 업데이트 및 재검증
3. 다학제적 관점 유지 (범죄학, 사회학, 데이터 과학)

경찰력 재배치 효과 예측 계산식 및 환경 변인 상세 모델링 예시

기대효과 : 범죄율 10% 내외 감소, 1.5-2년 내

범죄율 1% 감소를 위한 예산 및 예상 이익

본 미니프로젝트에서 수립한 내용을 사업화하는 경우 약 2억대의 초기 투자가 필요하며 130% 대의 이익이 1.5-2년 내로 예상되었다. 이는 일반적인 공공사업 대비 10-20배 수준의 이례적인 수치이다.

profile
hello world

0개의 댓글