<오소진 교수님의 파이썬 프로그래밍>
데이터 분석하는 사람은 데이터를 어디서 찾을 수 있을지 잘 파악하고 있어야 한다. 인구통계는 행정안전부, 수도권 교통 정보는 티머니 등.. 자료 출처를 명확히 가지고 있는 것이 힘이다.
cf.인구데이터는 모든 데이터와 비교할 수 있는 기초 데이터가 된다.
모든 분석 작업 전, 루틴이 되어야할 "데이터 세팅"
1) 엑셀 csv파일로 다운로드 후 노트패드 플러스 플러스로 열기
2) 파일의 마지막 자료값의 공백을 지우기
3) 인코딩을 euc-kr에서 UTF-8bom으로 미리 바꾸기: 한글 깨짐을 방지
4) 파일 형식을 all types로 설정 후 다른 이름으로 저장
✌<개인과제>✌
동일지역에 대한 연도별 인구구조 추이를 보기 위해서는 4개년도 연도별 자료를 각각 불러오고 읽으며 각 result1~4 값을 명명해줘야 한다.
참고. 시각화할 때, 폰트가 깨지지 않도록 런타임 다시 시작 후 아래 코드를 실행해줘야 한다.
import matplotlib as mpl
import matplotlib.pyplot as plt
%config InlineBackend.figure_format = 'retina'
!apt -qq -y install fonts-nanum
import matplotlib.font_manager as fm
fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)
plt.rc('font', family='NanumBarunGothic')
mpl.font_manager._rebuild()