[제로베이스 데이터 취업 스쿨 16기] 서울시 CCTV 현황 분석 - 데이터 분석

장수호·2023년 6월 27일
0

1. 데이터 훑어보기

  • head,tail 등의 메서드로 데이터를 대략적으로 파악하고 원하는 정보를 추출해보기

CCTV 데이터

  • 각 구별 소계와 연도별 CCTV 수가 있음
    • CCTV가 가장 많은 구와 가장 적은 구는 어디가 있을까?
    • 최근 3년간 CCTV 증가 추세는 어떨까?

구별 CCTV 수 정렬

  • 도봉구,강북구,광진구,광서구,중랑구 순으로 CCTV수가 적다
  • 강남구,양천구,서초구,관악구,은평구 순으로 CCTV수가 많다

최근 3년간 CCTV 증가율

  • 2013년 이전 CCTV 수 대비 2014년-2016년 CCTV수를 구하여 증가율을 계산
  • 종로구,도봉구,마포구,노원구,강동구 순으로 CCTV가 많이 증가함

인구현황 데이터

  • 각 구별 인구수와 세부 구성원이 나타남
    • 각 구별 인구수 대비 외국인,고령자는 얼마나 될까?
    • 외국인 비율, 한국인 비율이 가장 많은 구는 어디일까?

구별 인구 구성원 비율

각 구성원 비율 정렬

  • 영등포구,금천구,구로구,중구,용산구 순으로 외국인 비율이 높음

  • 강북구,종로구,중구,도봉구,동대문구 순으로 외국인 비율 높음

2. 인구와 CCTV의 상관관계

  • 단순히 CCTV 수를 구하는 것 보다 인구 대비 CCTV를 비교하는 것이 더 나은 접근
    -> 인구와 CCTV 간의 상관관계 확인 필요

상관관계란?

  • 한 데이터가 증가하면 다른 데이터가 증가 또는 감소하는 경향이 있다고 한다.
    • 0.2 이하는 상관관계가 없거나 무시해도 되는 수준
    • 0.4 이하는 약한 상관관계
    • 0.6 이하는 강한 상관관계
  • 상관관계가 있다는 것이 인과관계가 있다는 뜻은 아님
  • 데이터의 관계를 찾을 때 최소한의 근거가 있어야 해당 데이터를 비교하는 의미가 있고, 상관계수가 그 근거가 될 수 있음

  • 소계(CCTV 수)와 인구수의 상관관계가 0.2보다 크므로 비교하는 것이 의미있다고 할 수 있다.
  • 즉, 인구대비 CCTV 현황을 분석해서 상대적으로 CCTV 수가 적거나 많은 구를 찾는 것은 의미가 있다.

3. 시각화

CCTV 데이터 그래프로 표현

  • 강남,양천,서초,관악,은평,용산 순으로 CCTV가 많음

  • 종로,용산,중구 순으로 인구대비 CCTV가 많음

경향성 파악

  • 발견한 내용들을 효과적으로 전달하기 위해선 경향을 함께 파악할 수 있어야함

경향 직선 구하기 : np.polyfit(), np.poly1d()

  • np.polyfit() : 직선을 구성하기 위한 계수 계산
  • np.poly1d() : polyfit에서 찾은 계수를 가진 함수 생성

※ 1.4 버전부터는 np.polynomial 모듈을 쓰는것이 권장됨
(https://numpy.org/doc/stable/reference/generated/numpy.polyfit.html)

최종 그래프

  • 경향 직선을 기준으로 크게 떨어진 데이터들은 인구대비 CCTV수가 매우 많거나 적다는 것을 한눈에 볼 수 있음




※ 학습 자료에 대한 저작권은 제로베이스에 있습니다.

0개의 댓글