범죄 1 ~ 4

yeoni·2023년 5월 3일

시작하기전

1) searborn

목표

데이터 과학의 목적: 가정 혹은 ‘인식’을 검증하고 표현하는 것
'서울 강남 3구' 체감 안전도가 높다는 뉴스 → 사실인지 검증

1. 데이터 읽기

thousands="," → 콤마를 문자로 인식하지 않게 구분을 없애고 불러오기
- 읽는 데이터의 숫자에 세자리수를 구분하기 위한 콤마(,)가 사용됨을 지정
- thousands 옵션을 사용한 후에는 콤마가 있는 숫자로 보이는 문자열 데이터가 숫자형 데이터로 자동으로 변환됨
- 문자로 구성된 데이터에는 해당사항이 없음
info(): 데이터 개요 확인하기 → 불필요한 데이터가 있는지 확인
특정 컬럼에서 unique 조사
crime_raw_data["죄종"].isnull() → nan값을 확인

import numpy as np
import pandas as pd

#thousands
crime_raw_data = pd.read_csv("../data/02. crime_in_Seoul.csv", thousands=",", encoding="euc-kr")
crime_raw_data.head()
crime_raw_data.info()
crime_raw_data["죄종"].unique()

crime_raw_data = crime_raw_data[crime_raw_data["죄종"].notnull()]

2. 서울시 범죄 현황 데이터 정리

pivot_table 이용
MultiIndex 정리(다중 컬럼에서 특정 컬럼 제거) → columns.droplevel()
현재 index는 경찰서 이름

crime_station = crime_raw_data.pivot_table(
    crime_raw_data,
    index="구분", 
    columns=["죄종", "발생검거"], 
    aggfunc=[np.sum]) #sum이라는 column 나오려면 []필요

#MultiIndex
crime_station.columns
'''
MultiIndex([('sum', '건수', '강간', '검거'),
            ('sum', '건수', '강간', '발생'),
            ('sum', '건수', '강도', '검거'),
            ('sum', '건수', '강도', '발생'),
            ('sum', '건수', '살인', '검거'),
            ('sum', '건수', '살인', '발생'),
            ('sum', '건수', '절도', '검거'),
            ('sum', '건수', '절도', '발생'),
            ('sum', '건수', '폭력', '검거'),
            ('sum', '건수', '폭력', '발생')],
           names=[None, None, '죄종', '발생검거'])
'''

#다중 컬럼에서 특정 컬럼 제거
crime_station.columns = crime_station.columns.droplevel([0, 1])
crime_station.head()

3. Google Maps를 이용한 데이터 정리

Pandas에 잘 맞춰진 반복문용 명령 iterrows()

Pandas 데이터 프레임은 대부분은 2차원
for문을 사용하면 n번째라는 지정을 반복해서 가독률이 떨어짐
Pandas 데이터 프레임으로 반복문을 만들때 iterrows()라는 옵션을 사용
받을 때, 인덱스와 내용으로 나누어 받는 것만 주의

데이터 정리 순서

경찰서 이름에서 소속한 '구'이름 얻기
구이름, 위도, 경도 정보를 저장할 준비
iterrow() 반복문을 이용해서 표의 NaN을 모두 채워줌
get_level_values와 for문을 이용해서 죄종, 발생검거로 나누어진 컬럼을 합치기
데이터 저장

import googlemaps
gmaps_key="API key"
gmaps=googlemaps.Client(key=gmaps_key)
gmaps.geocode("서울영등포경찰서", language="ko") #단순 테스트 코드

tmp = gmaps.geocode("서울영등포경찰서", language="ko")

#len(tmp)=1 → index=0, dict이라서 이렇게 접근(lat 위도, lng 경도)
print(tmp[0].get("geometry")["location"]["lat"])
print(tmp[0].get("geometry")["location"]["lng"])

#주소 값을 띄어쓰기로 나누고 '구'에 해당하는 index
tmp[0].get("formatted_address").split()[2]

#NaN을 넣어 저장할 준비
crime_station["구별"] = np.nan
crime_station["lat"] = np.nan
crime_station["lng"] = np.nan

#idx -> 현재 '구분'
#iterrow(), NaN
for idx, rows in crime_station.iterrows():
    station_name = "서울" + str(idx) + "경찰서"
    tmp = gmaps.geocode(station_name, language="ko")
    
    tmmp_gu = tmp[0].get("formatted_address").split()[2]
    lat = tmp[0].get("geometry")["location"]["lat"]
    lng = tmp[0].get("geometry")["location"]["lng"]
    
    crime_station.loc[idx, "lat"] = lat    
    crime_station.loc[idx, "lng"] = lng
    crime_station.loc[idx, "구별"] = tmmp_gu

# 컬럼 합치기
tmp = [
    crime_station.columns.get_level_values(0)[n] + crime_station.columns.get_level_values(1)[n]
    for n in range(0, len(crime_station.columns.get_level_values(0)))
]
'''
tmp = ['강간검거', '강간발생', '강도검거','강도발생', '살인검거', '살인발생', '절도검거', '절도발생', '폭력검거', '폭력발생', '구별', 'lat', 'lng']
'''
crime_station.columns = tmp
crime_station.head()

# 데이터 저장
crime_station.to_csv("../data/02. crime_station_raw.csv", sep=",", encoding="utf-8")

4. 구별 데이터로 정리

index_col 이용해서 '구분'을 인덱스 칼럼으로 지정
'구별' pivot_table 생성하고 불필요 column 삭제
검거율 생성
heatmap을 위해서 검거율 100보다 큰 숫다 찾아서 바꾸기

#index_col '구분'을 인덱스 칼럼으로 적용
crime_anal_station = pd.read_csv("../data/02. crime_station_raw.csv", index_col=0, encoding="utf-8")

#pivot_table, column 삭제
crime_anal_gu = pd.pivot_table(crime_anal_station, index="구별", aggfunc=np.sum)
del crime_anal_gu["lat"]
crime_anal_gu.drop("lng", axis=1, inplace=True)

#검거율 생성
target = ["강간검거율", "강도검거율", "살인검거율", "절도검거율", "폭력검거율"]
num = ["강간검거", "강도검거", "살인검거", "절도검거", "폭력검거"]
den = ["강간발생", "강도발생", "살인발생", "절도발생", "폭력발생"]
crime_anal_gu[target] = crime_anal_gu[num].div(crime_anal_gu[den].values) * 100

#필요 없는 컬럼 제거
del crime_anal_gu["강간검거"]
del crime_anal_gu["강도검거"]
del crime_anal_gu["살인검거"]
crime_anal_gu.drop(["절도검거", "폭력검거"], axis=1, inplace=True)

# 100보다 큰 숫다 찾아서 바꾸기
crime_anal_gu[crime_anal_gu[target] > 100] = 100

#컬럼 이름 변경
crime_anal_gu.rename(columns={"강간발생":"강간", "강도발생":"강도", "살인발생":"살인", "절도발생":"절도", "폭력발생":"폭력"}, inplace=True)
crime_anal_gu.head()

5. 범죄 데이터 정렬를 위한 데이터 정리

정규화하여 비교(최고:1 , 최소:0)
CCTV 연관성을 찾기 위해 CCTV자료 추가
정규화된 범죄발생건수의 전체 평균을 구해서 '범죄' 칼럼 대표값으로 사용
검거율의 평균을 구해서 '검거' 컬럼의 대표값으로 사용
numpy: axis=1 행, axis=0 열 <-> pandas: axis=1 열, axis=0 행

# 정규화 범죄발생수
col = ["강간", "강도", "살인", "절도", "폭력"]
crime_anal_norm = crime_anal_gu[col] / crime_anal_gu[col].max()

# 검거율 추가
col2 = ["강간검거율", "강도검거율", "살인검거율", "절도검거율", "폭력검거율"]
crime_anal_norm[col2] = crime_anal_gu[col2]

# CCTV
result_CCTV = pd.read_csv("../data/01. CCTV_reulst.csv", index_col="구별", encoding="utf-8")
crime_anal_norm[["인구수", "CCTV"]] = result_CCTV[["인구수", "소계"]]

#'범죄' 칼럼
col = ["강간", "강도", "살인", "절도", "폭력"]
crime_anal_norm["범죄"]=np.mean(crime_anal_norm[col], axis=1)

# '검거' 컬럼
col = ["강간검거율", "강도검거율", "살인검거율", "절도검거율", "폭력검거율"]
crime_anal_norm["검거"] = np.mean(crime_anal_norm[col], axis=1)
crime_anal_norm

6. 서울시 범죄현황 데이터 시각화

pairplot

강도, 살인, 폭력

import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib import rc
plt.rcParams["axes.unicode_minus"]=False
get_ipython().run_line_magic("matplotlib", "inline")
rc("font", family="Arial Unicode MS")

# kind : {'scatter', 'kde', 'hist', 'reg'}
sns.pairplot(data=crime_anal_norm, vars=["살인", "강도", "폭력"], kind="reg", height=4)

인구수, cctv & 살인, 강도

def drawGraph():
    sns.pairplot(
        data=crime_anal_norm, 
        x_vars=["인구수", "CCTV"],
        y_vars=["살인", "강도"],
        kind="reg",
        height=4
    )
    plt.show()
drawGraph()

인구수, cctv & 살인검거율, 폭력검거율

def drawGraph():
    sns.pairplot(
        data=crime_anal_norm, 
        x_vars=["인구수", "CCTV"],
        y_vars=["살인검거율", "폭력검거율"],
        kind="reg",
        height=4
    )
    plt.show()
drawGraph()

인구수, cctv & 절도검거율, 강도검거율

def drawGraph():
    sns.pairplot(
        data=crime_anal_norm, 
        x_vars=["인구수", "CCTV"],
        y_vars=["절도검거율", "강도검거율"],
        kind="reg",
        height=4
    )
    plt.show()
drawGraph()

heatmap

검거율

"검거"평균 기준으로 정렬
데이터 프레임 생성
그래프 설정

#"검거"평균 기준으로 정렬
def drawGraph():
    #데이터 프레임 생성
    target_col=["살인검거율", "강도검거율", "절도검거율", "폭력검거율", "강간검거율", "검거"]
    crime_anal_norm_sort= crime_anal_norm.sort_values(by="검거", ascending=False)#내림차순
    #그래프 설정
    plt.figure(figsize=(10, 10))
    sns.heatmap(
        data=crime_anal_norm_sort[target_col],
        annot=True,
        fmt='f', #실수
        linewidths=0.5, #간격설정
        cmap="RdPu"
        
    )
    plt.title("범죄 검거 비율(정규화된 검거의 합으로 정렬)")
    plt.show()
drawGraph()

범죄건수

"범죄"평균 기준으로 정렬
데이터 프레임 생성
그래프 설정

#"범죄"평균 기준으로 정렬
def drawGraph():
    #데이터 프레임 생성
    target_col=["살인", "강도", "절도", "폭력", "강간", "범죄"]
    crime_anal_norm_sort= crime_anal_norm.sort_values(by="범죄", ascending=False)#내림차순
    #그래프 설정
    plt.figure(figsize=(10, 10))
    sns.heatmap(
        data=crime_anal_norm_sort[target_col],
        annot=True,
        fmt='f', #실수
        linewidths=0.5, #간격설정
        cmap="RdPu"
        
    )
    plt.title("범죄 비율(정규화된 발생 건수로 정렬)")
    plt.show()
drawGraph()

#데이터 저장
crime_anal_norm.to_csv("../data/02. crime_in_Seoul_final.csv", sep=",", encoding="utf-8")

Reference
1) 제로베이스 데이터스쿨 강의자료
2) 정규화 이유
3) Pandas DataFrame 반복

컬럼을 컬럼으로 나누는 방법 추가 설명

#하나의 컬럼을 다른 컬럼으로 나누기
crime_anal_gu["강도검거"]/crime_anal_gu["강도발생"]

#다수의 컬럼을 다른 칼럼으로 나누기
crime_anal_gu[["강도검거", "살인검거"]].div(crime_anal_gu["강도발생"], axis=0).head()

#다수의 컬럼을 다수의 컬럼으로 나누기
num = ["강간검거", "강도검거", "살인검거", "절도검거", "폭력검거"]
den = ["강간발생", "강도발생", "살인발생", "절도발생", "폭력발생"]
crime_anal_gu[num].div(crime_anal_gu[den].values).head()

yeoni

데이터 사이언스 / just do it

이전 포스트

folium

다음 포스트

범죄 1 ~ 4

시작하기전

목표

1. 데이터 읽기

2. 서울시 범죄 현황 데이터 정리

3. Google Maps를 이용한 데이터 정리

Pandas에 잘 맞춰진 반복문용 명령 iterrows()

데이터 정리 순서

4. 구별 데이터로 정리

5. 범죄 데이터 정렬를 위한 데이터 정리

6. 서울시 범죄현황 데이터 시각화

pairplot

강도, 살인, 폭력

인구수, cctv & 살인, 강도

인구수, cctv & 살인검거율, 폭력검거율

인구수, cctv & 절도검거율, 강도검거율

heatmap

검거율

범죄건수

folium

범죄 5 ~ 6

0개의 댓글

관련 채용 정보