<3주차_6일>서울시 CCTV현황 분석 _ 이론 및 실습 (1) 데이터읽기

Nary Kim·2023년 5월 20일
0
post-thumbnail

1. 프로젝트 소개 및 목표

  • ~ 구에 cctv ~개 식으로 되어있는 자료형식.
  • 인구수대비 cctv 갯수의 현황 시각화가 목표.
  • 시각화그래프에서 전체 데이터의 경향을 나타내는 직선의 그래프까지 알아낼 수 있다면 이 선이 기준점이 되어서 인구수대비 cctv 갯수의 많고 적음을 알아내는 지표가 될 수 있을 것이다.

2. 데이터 출처 (수업에서는 파일을 제공)

  • 구글에서 검색. "서울시 자치구 연도별 cctv설치 현황"
  • 데이터명은 "Seoul_CCTV.csv" (csv : Comma Separated Values)
  • 서울 열린 데이터 광장 -> 데이터 이용하기 -> open API 서비스 -> 서울시 주민등록인구(구별) 통계 엑셀파일(.xsl) 다운

3. 데이터 읽기

Pandas

  • python에서 R 만큼의 강력한 데이터 핸들링 성능을 제공하는 모듈
  • 단일 프로세스에서는 최대 효율
  • 코딩 가능하고 응용 가능한 엑셀로 받아들여도 됨.
  • 미국에서는 스테로이드 맞은 엑셀로 표현함.
import pandas as pd
  • 변수에 파일을 읽어오게 한다.
cctv_seoul = pd.read_csv("데이터경로", encoding="utf-8")
  • 주피터나 개인 컴 안에서는 데이터의 경로를 어느정도 타이핑 후 tab을 누르면 자동 완성이 가능하다. colab은 안된다.
  • Column Name, Index, Values, Column
  • 변수명.head()
  • 변수명.columns
  • 변수명.rename(columns = {변수명.columns[0] : "oo", 변수명.columns[1] : "oo", 변수명.columns[2] : "oo"},
    inplace=True)

4. 실습

import pandas as pd
#데이터 읽기
pop_Seoul = pd.read_excel(
    "../data/01. Seoul_Population.xls",header=2,usecols = "B, D, G, J, N"
)
#콜롬 이름 다시 설정.
pop_Seoul.rename(
    columns={
        pop_Seoul.columns[0]:"구별",
        pop_Seoul.columns[1]:"인구수",
        pop_Seoul.columns[2]:"한국인",
        pop_Seoul.columns[3]:"외국인",
        pop_Seoul.columns[4]:"고령자"
    },
    inplace=True #원본데이터 진짜 바꾼다는 의미.
)
profile
나는 무엇이 될것인가!!

0개의 댓글