웹 크롤링/파이썬 프로그래밍

한영석·2022년 8월 15일
0

Pandas 기초

서울시 CCTV 분석(왕초보용)

  • 목표
    • 데이터를 분석하여 아래의 그림을 구현해보기

데이터얻기

  • 데이터 얻기
    • 구글에서 '서울시 자치구 연도별 CCTV 설치 현황'검색

다운받기 가능

  • 서울 열린 데이터 광장 홈페이지 접속 -> 데이터 이용하기 -> 오픈API 서비스 -> 서울 구별 인구 통계 선택(서울시 주민등록인구(구별) 통계) -> 원하는 파일 형태로 다운로드 가능

데이터읽기

Pandas에서 엑셀 및 텍스트 파일 읽기

  • Pandas로 CSV, 엑셀 파일 읽기

    • Python에거 R 만큼의 강력한 데이터 핸들링 성능을 제공하는 모듈
    • 단일 프로세스에서는 최대 효율
    • 코딩 가능하고 응용 가능한 엑셀로 받아들여도 됨
    • 누군가는 스테로이드를 맞은 엑셀로 표현함
  • 원하는 모듈이 설치되어 있다면

    • 파이썬에서 import 명령을 통해 사용하겠다고 선언하면 된다.


  • 통상 CSV는 띄어쓰기로 구분되니 그냥 read_csv 명령으로 읽기만 해도 된다

  • 긴 파일명을 끝까지 입력하지 말고 적당한 곳에서 TAB 키를 눌러보자

  • 한글은 encoding 설정이 필수

  • Column의 이름을 조회할 수 있다.

  • Column의 이름을 변경하고 싶다면

  • 엑셀 설정
    • 자료를 읽기 시작할 행(header)을 지정
    • 읽어올 엑셀의 컬럼을 지정(usecols)

  • 필요없는 컬럼을 제외하여 재구성 시킬수 있다.

  • 컬럼의 재구성이 끝나면 컬럼명을 변경하여 표를 다듬을 수 있다.


Pandas Basic

  • pandas는 통상 pd로 import 하고 수치해석적 함수가 많은 numpy는 통상 np로 import 한다.
  • pandas의 데이터형을 구성하는 기본은 Series이다.

  • 날짜(시간)을 이용할 수 있다.

  • Pandas에서 가장 많이 사용되는 데이터형은 DataFrame이다.
    • index와 columns를 지정하면 된다.

  • 앞 부분 5개의 데이터 확인
    (원하는숫자를 넣어 원하는만큼 출력할 수 있다.)

  • 각각의 index, columns, values등을 조회할 수 있다.

  • DataFrame의 기본 정보 확인
    • 여기서는 각 컬럼의 크기와 데이터 형태를 확인하는 경우가 많다.

  • DataFrame의 통계적 기본 정보 확인

  • sort_values : 데이터 정렬

  • 특정한 컬럼을 읽을 때

  • [n : m] : n 부터 m - 1 까지
    • 그러나 인덱스나 컬럼의 이름으로 slice하는 경우는 끝을 포함함

  • 인덱스 이름으로도 지정할 수 있다.
    • pandas의 보편적인 slice 옵션
      • loc[ : (모든 인덱스), ['A', 'B'](특정 컬럼)] (loc : 이름으로 지정)

  • 이렇듯 부분적으로 특정 인덱스나 컬럼을 출력하는걸 슬라이스(slice)라고 부른다.

    • iloc 옵션을 이용해서 번호로만 접근할 수 있다.

  • df[condition]과 같이 사용하는 것이 일반적 이다.
    • pandas의 버전에 따라 조금씩 허용되는 문법이 다르다.
    • 인터넷에서 확보한 소스코드를 돌릴 때는 pandas의 버전을 확인하는 것이 필요

  • 조건으로 출력

  • 컬럼을 추가하여 수정

  • 특정 요소의 있는지 확인

  • 특정 요소의 컬럼만 출력

  • 특정 컬럼 제거

  • 함수를 적용


Pandas 기초 - Series

  • 컬럼 이름 바꾸기

Pandas 기초 - DataFrame

  • 특정 컬럼 제거

    • del

    • drop

  • apply() 함수를 적용해주는 함수

profile
코딩공부중

0개의 댓글