15기 데이터 취업 스쿨 / 22일차 스터디노트 / 서울시 CCTV 분석, 서울시 인구 분석, pandas 기능

구명모·2023년 5월 30일

EDA

목록 보기

2/15

● 오늘의 공부

서울시 cctv 분석
서울시 인구 확인
pandas 기초 기능

♟️pandas

Python에서 R 만큼의 강력한 데이터 핸들링 성능을 제공하는 모듈
단일 프로세스에서는 최대 효율
코딩 가능하고 으용 가능한 엑셀로 받아들여도 됨
데이터를 불러오고 읽는데 최적인 프로그램
import pandas as pd 로 씀
시작전 ds_study를 활성화시켜주고 jupyter notebook을 실행할 폴더를 찾아준다.

♟️CCTV 분석

서울시 CCTV 현황 부르기, head()의 기본값은 5이다. 추가로 불러오거나 적게 불러올려면 ()안에 원하는 숫자를 채워넣어주면 된다.
반대로 tail()을 이용하면 끝에서부터 5개를 불러온다. tail()을 이용하면 총 인덱스가 몇인지 알 수 있는 장점이 있다.

가로는 인덱스, 세로는 columns, 내부값은 value이다.

columns 값은 리스트형태로 불러올수 있다. 앞전에 python에서 했던 리스트 자료구조에서 리스트는 각각 인덱스를 불러올수 있고 수정이나 변환, 추가가 가능했다.
rename 함수로 colums 이름 변경이 가능하다.
이때 inplace = True 를 붙이면 원본에도 바뀐 값이 저장이 된다. 기재하지 않으면 추가 작업을할때 불러오면 다시 이전값으로 돌아간다.

♟️인구수 분석

excel은 마찬가지로 pd.read에서 excel을 불러오고 경로를 추가하면 된다.
위에 불러온 엑셀같은 경우는 인덱스에 필요 없는 부분이 너무 많아서 날려버리려고 할때 head에서 2개를 날리고 필요한 columns를 불러오면 된다. 그리고 columns 값을 바꾸기 위해 rename(columns = {}, inplace = True) 를 써준다.

♟️Series

pd.Series() 으로 구현한다. Index와 Value로 이루어져있고 한가지 데이터 타입만 가질 수 있다.

♟️DataFrame

pd.DafaFrame() 으로 구현한다. Index, columns, value로 이루어져있다. 표준정규분포에서 샘플링한 난수 생성. 6개의 Index와 4개의 columns

♟️데이터 프레임 정보 탐색

그리고 날짜 데이터를 통해 6개의 Index를 만들어주면
data, index = dates(날짜 데이터), columns는 직접 입력. 을 통해 DataFrame을 만들수 있다.
이렇게 만든 DataFrame의 각각의 요소들은 물론 호출이 가능하고 정보와 각종 값 분석도 가능하다.