Seaborn
import seaborn as sns
4. 데이터분석
1. 서울시 범죄현황 데이터 시각화
- 기울기 확인 결과:
강도에서 살인으로 이어지는 것 < 폭력에서 살인으로 이어지는 것

- '인구수 & CCTV수'와 폭력&살인&강도'와의 결과:
인구수가 늘어남으로써 범죄가 늘어나는 것을 볼 수 있음(그러나 CCTV와의 인과관계가 있다고 할 수 없음. 앞서 상관관계에서 말했듯 상관관계가 있다고 인과관계가 있는것이 아니기 때문)



- 프로젝트 개요에서 본 강남3구(강남,서초,송파)를 확인.
검거비율heatmap과 범죄비율heatmap으로 종합적으로 분석하면,
강남3구는 '사실상 안전도가 높지 않다'는 것을 확인할 수 있음
import folium
2. 서울시 범죄 현황에 대한 지도 시각화
import json
import folium
import pandas as pd
우리나라 경계선 좌표값


- 여기서도 볼수 있듯, 강남3구(강남,서초,송파)는 다른구와 비교해서 '사실상 가장 안전하다'는 것을 확인할 수 없음



- 경찰서별 검거율을 정규화하여 구별 범죄 현황과 경찰서별 검거율에 따라 원 크기를 달리한 지도 시각화함
- 즉, 원의 크기도 큰데 5대 범죄 발생건수가 적어 색이 옅은 지역을 안전하다고 볼 수 있음 -> 그 지역으로는 대부분 '강북 지역'이라고 생각할 수 있음.
5. 추가검증
: 상대적으로 '강남 지역이 유흥업소가 많은 지역이기에, 사건사고가 많은 것'이 아니냐는 의문과 위 검증으로인해 '강남은 위험한 지역이 많다'는 일반화 오류가 생길 수 있는 점을 고려해 서울시 범죄현황 발생장소 분석을 추가 검증함.

- 5대 범죄를 장소별로 나누어 정규화한 뒤, 종합(범죄들의 평균)에 넣어 '장소별 범죄 점수 매김'

- 위의 내용을 확인하면,
종합적 범죄가 이뤄지는 장소는 '1위:기타, 2위:노상, 3위:단독주택'
각 범죄를 확인하면 (기타를 제외하고) '살인은 단독주택'에서,
'강간, 강도, 절도, 폭력은 노상'이 제일 높은 것으로 알 수 있음.
< 다시 보는 코드 정리 >
crime_loc_norm['종합']= np.mean(crime_loc_norm, axis=1)
crime_loc_norm
“이글은제로베이스데이터취업스쿨의강의자료일부를발췌하여
작성되었습니다.”