미니프로젝트(2) 범죄 빅데이터 분석

JongseokLee·2021년 11월 9일
0
post-thumbnail

부산시 5대 범죄 및 시카고 범죄현황 빅데이터 분석

구분내용
기획배경부산시의 범죄발생율과 각 구별 cctv 설치 현황에 대하여 어떤 연결점이 있지않을까 하는 의문에서부터 출발하여 부산시 5대범죄와 cctv 설치 현황을 조사해보았습니다. 이 자료만 가지고 머신러닝을 돌리기에 데이터 양이부족해서 인구대비 범죄발생율이 가장 높은 미국 일리노이 주의 시카고 범죄 발생 현황도 추가하여 빅데이터 분석을 진행하였습니다.
기획목적부산시 범죄발생과 각 구별로 cctv 설치 현황을 조사하여 범죄발생과 cctv 설치대수에 관한 연결점을 찾기 위해서 빅데이터 분석을 시작하였습니다
기능요약가장 범죄율이 높았던 부산진구의 cctv 설치수가 1,570대로 범죄 발생 율 대비cctv 설치 개수는 낮은 것으로 확인되었습니다. 인신매매의 경우 주로 날이 바뀌는 자정이나 새벽 시간대에 많이 발생했고, 매춘은 저녁시간부터 자정 전까지 많이 발생하는 것을 볼 수 있습니다. 강도사건이나 형사 치상의 경우는 모든 시간대에 고르게 발생하였고, 의외로저녁 시간대에 발생이 많을 것으로 예상했던 살인과 성범죄 같은 범죄들도다양한 시간대에 분포되어 있는 것을 보실 수가 있습니다.




구분내용
차별화워드클라우드 작업의 경우 수업시간에는 한글로 진행하여 soynlp 패키지의명사추출기능을 활용하였으나, 이 패키지는 한글만 적용이 돼서 영어로 쓸 때는nltk.tokenize 패키지를 활용하여 진행하였습니다. 그 외의 작업은 수업시간에배웠던 사이킷런-머신러닝 라이브러리를 활용해서 디시즌트리, 랜덤포레스트, 로지스틱스리그레션 회귀분석 모델을 적용하여 마무리 하였습니다.
영향력이번 프로젝트를 진행하면서 빅데이터는 결국에 끈기 있게 조금씩 쌓아가는분야 라는 걸 다시 한번 알게 되었습니다. 그래서 궁극적으로 주제였던 범죄데이터 뿐만 아니라 팀원들 각자도 스스로에게 트레이닝을 한번 돌려볼 수 있었던 의미 있는 시간이었다고 생각합니다.
가치데이터 활용에 기반이 되는 오픈 구글 클라우드 빅쿼리를 활용하여 많은 양의데이터를 분석하고, 필요한 데이터들만 추출 및 재설계한 경험은 빅데이터 분석의 밑거름이 될 것이라고 생각합니다. 또한 작은 프로젝트이지만 팀프로젝트로 진행하며 협업 능력 향상에도 많은 도움이 되었을 것이라 생각합니다.
profile
DataEngineer Lee.

0개의 댓글