1. 데이터 훑어보기
- head,tail 등의 메서드로 데이터를 대략적으로 파악하고 원하는 정보를 추출해보기
CCTV 데이터
- 각 구별 소계와 연도별 CCTV 수가 있음
- CCTV가 가장 많은 구와 가장 적은 구는 어디가 있을까?
- 최근 3년간 CCTV 증가 추세는 어떨까?
구별 CCTV 수 정렬
- 도봉구,강북구,광진구,광서구,중랑구 순으로 CCTV수가 적다
- 강남구,양천구,서초구,관악구,은평구 순으로 CCTV수가 많다
최근 3년간 CCTV 증가율
- 2013년 이전 CCTV 수 대비 2014년-2016년 CCTV수를 구하여 증가율을 계산
- 종로구,도봉구,마포구,노원구,강동구 순으로 CCTV가 많이 증가함
인구현황 데이터
- 각 구별 인구수와 세부 구성원이 나타남
- 각 구별 인구수 대비 외국인,고령자는 얼마나 될까?
- 외국인 비율, 한국인 비율이 가장 많은 구는 어디일까?
구별 인구 구성원 비율
각 구성원 비율 정렬
- 영등포구,금천구,구로구,중구,용산구 순으로 외국인 비율이 높음
- 강북구,종로구,중구,도봉구,동대문구 순으로 외국인 비율 높음
2. 인구와 CCTV의 상관관계
- 단순히 CCTV 수를 구하는 것 보다 인구 대비 CCTV를 비교하는 것이 더 나은 접근
-> 인구와 CCTV 간의 상관관계 확인 필요
상관관계란?
- 한 데이터가 증가하면 다른 데이터가 증가 또는 감소하는 경향이 있다고 한다.
- 0.2 이하는 상관관계가 없거나 무시해도 되는 수준
- 0.4 이하는 약한 상관관계
- 0.6 이하는 강한 상관관계
- 상관관계가 있다는 것이 인과관계가 있다는 뜻은 아님
- 데이터의 관계를 찾을 때 최소한의 근거가 있어야 해당 데이터를 비교하는 의미가 있고, 상관계수가 그 근거가 될 수 있음
- 소계(CCTV 수)와 인구수의 상관관계가 0.2보다 크므로 비교하는 것이 의미있다고 할 수 있다.
- 즉, 인구대비 CCTV 현황을 분석해서 상대적으로 CCTV 수가 적거나 많은 구를 찾는 것은 의미가 있다.
3. 시각화
CCTV 데이터 그래프로 표현
- 강남,양천,서초,관악,은평,용산 순으로 CCTV가 많음
- 종로,용산,중구 순으로 인구대비 CCTV가 많음
경향성 파악
- 발견한 내용들을 효과적으로 전달하기 위해선 경향을 함께 파악할 수 있어야함
경향 직선 구하기 : np.polyfit(), np.poly1d()
- np.polyfit() : 직선을 구성하기 위한 계수 계산
- np.poly1d() : polyfit에서 찾은 계수를 가진 함수 생성
※ 1.4 버전부터는 np.polynomial 모듈을 쓰는것이 권장됨
(https://numpy.org/doc/stable/reference/generated/numpy.polyfit.html)
최종 그래프
- 경향 직선을 기준으로 크게 떨어진 데이터들은 인구대비 CCTV수가 매우 많거나 적다는 것을 한눈에 볼 수 있음
※ 학습 자료에 대한 저작권은 제로베이스에 있습니다.