: 서울시 주민등록인구 (구별) 통계
: 서울시 자치구 년도별 CCTV 설치 현황
서울시 자치구 년도별 CCTV 설치 현황 (csv파일-한글encoding='utf-8')
서울시 주민등록인구 (구별) 통계 (필요한 부분만 추출)
** rename(): 컬럼 이름 수정
** inplace=True: 자료 업데이트 저장
CCTV 데이터 정렬 & 최근 증가율 추가과 상위 5구
** sort_values(by='기준', ascending=T/F) : 정렬
** 컬럼추가: datafame['컬럼명'] = [리스트 내용]
인구수 파일 필요없는 부분 삭제 및 인구수 정렬 확인
** drop([이름], axis=0(가로/1:세로), inplace=True): 특정 인덱스나 컬럼 삭제
** unique(): 중복 제외 데이터 확인(초반 데이터 검증과 데이터 합칠때 용이)
구별을 기준으로 두 데이터 합치기 & 필요없는 부분 삭제 및 인덱스 변경
CCTV비율(CCTV소계/인구수) 추가
** merge(left, right, ,how='방법'(디폴트-inner) ,on='기준'): 데이터 병합
** del키워드: 특정 컬럼 삭제
** set_index() 주의: 기존에 없는 유니크한 이름으로 할것
상관계수 확인(인구수와 소계 사이에 약한 상관관계가 있음(0.23)
** 상관계수란?(corr())
:두 변량 사이에 한쪽이 증가하면 나머지 한 쪽이 증가(양)/감소(음) 경향이 있을 때, 이 두 변량 사이를 '상관관계'. 단, 상관관계가 있다고 인과관계인 것은 아님!(0.2이하:무시해도 좋은 수준 / 0.4이하: 약함 / 0.6이상: 강한 상관관계)
matplotlib 준비:
import matplotlib.pyplot as plt
from matplotlib import rc
rc('font',family='Malgun Gothic')
plt.rcParams['axes.unicode_minus']
get_ipython().run_line_magic("matplotlib","inline")
CCTV비율(인구수 대비) 시각화
** 그래프를그리는코드를def()로작성
경향과의 오차 컬럼 만들기
경향과의 오차 큰 자치구 정렬
오차를 강조한 데이터 시각화
** c=, cmap=, colorbar(): colormap활용하여 오차에 따라 사용자정의한 컬러 구별
** text(): 오차가 큰/적은 구 이름 표시!