구분 | 내용 |
---|---|
기획배경 | 부산시의 범죄발생율과 각 구별 cctv 설치 현황에 대하여 어떤 연결점이 있지않을까 하는 의문에서부터 출발하여 부산시 5대범죄와 cctv 설치 현황을 조사해보았습니다. 이 자료만 가지고 머신러닝을 돌리기에 데이터 양이부족해서 인구대비 범죄발생율이 가장 높은 미국 일리노이 주의 시카고 범죄 발생 현황도 추가하여 빅데이터 분석을 진행하였습니다. |
기획목적 | 부산시 범죄발생과 각 구별로 cctv 설치 현황을 조사하여 범죄발생과 cctv 설치대수에 관한 연결점을 찾기 위해서 빅데이터 분석을 시작하였습니다 |
기능요약 | 가장 범죄율이 높았던 부산진구의 cctv 설치수가 1,570대로 범죄 발생 율 대비cctv 설치 개수는 낮은 것으로 확인되었습니다. 인신매매의 경우 주로 날이 바뀌는 자정이나 새벽 시간대에 많이 발생했고, 매춘은 저녁시간부터 자정 전까지 많이 발생하는 것을 볼 수 있습니다. 강도사건이나 형사 치상의 경우는 모든 시간대에 고르게 발생하였고, 의외로저녁 시간대에 발생이 많을 것으로 예상했던 살인과 성범죄 같은 범죄들도다양한 시간대에 분포되어 있는 것을 보실 수가 있습니다. |
구분 | 내용 |
---|---|
차별화 | 워드클라우드 작업의 경우 수업시간에는 한글로 진행하여 soynlp 패키지의명사추출기능을 활용하였으나, 이 패키지는 한글만 적용이 돼서 영어로 쓸 때는nltk.tokenize 패키지를 활용하여 진행하였습니다. 그 외의 작업은 수업시간에배웠던 사이킷런-머신러닝 라이브러리를 활용해서 디시즌트리, 랜덤포레스트, 로지스틱스리그레션 회귀분석 모델을 적용하여 마무리 하였습니다. |
영향력 | 이번 프로젝트를 진행하면서 빅데이터는 결국에 끈기 있게 조금씩 쌓아가는분야 라는 걸 다시 한번 알게 되었습니다. 그래서 궁극적으로 주제였던 범죄데이터 뿐만 아니라 팀원들 각자도 스스로에게 트레이닝을 한번 돌려볼 수 있었던 의미 있는 시간이었다고 생각합니다. |
가치 | 데이터 활용에 기반이 되는 오픈 구글 클라우드 빅쿼리를 활용하여 많은 양의데이터를 분석하고, 필요한 데이터들만 추출 및 재설계한 경험은 빅데이터 분석의 밑거름이 될 것이라고 생각합니다. 또한 작은 프로젝트이지만 팀프로젝트로 진행하며 협업 능력 향상에도 많은 도움이 되었을 것이라 생각합니다. |