서울시 CCTV 설치 수에 관한 파일 분석
1. 파일 불러오기
- pandas 를 사용하기 위해, 반드시 import pandas를 해주어야 하고 as pd 는 앞으로 판다스를 pd로 줄여 사용하겠다는 의미이다.
- 판다스를 이용해 csv파일(데이터들이 ,로 구분되어진 파일 형태)을 읽어들일수 있다. 파일을 불러올때는 cctv = pd.read_csv("C:/Users/dydzk/OneDrive/바탕 화면/ds_study/01. Seoul_CCTV.csv") 와 같이 read_csv 메소드를 쓰고 안에 경로를 적어준다. 반드시 파일명까지 쓰고 형식까지 써야한다.
- value 값을 지정하여 그 값 기준 오름차순 및 내림차순으로 정리해보았다. 증가율을 보기위해, 새로운 컬럼을 하나 만들고, (2014년 + 2015년 + 2016년) / 2013년 의 값을 넣었다.
- 엑셀 파일을 불러올땐, read_excel로 쓴다.
2. 사용할 데이터값 정리하기
- cctv 파일의 행 총 25 개이므로 맞추기 위해 위의 필요없는 행들을 자르고, 컬럼 역시 필요한 값만 가져온다. 남, 녀 등등의 구분된 값들은 버리고 총 합계만 가져왔다.
3. 값을 알맞게 정렬하여 비교하기
- pop1["구 이름"].unique() 을 써서, 해당 행에서 겹치는 값을 제외한 값들만 출력해볼수 있다. 개수를 세어보면 CCTV값과 같이 25개이다.
- 외국인 비율, 고령자 비율 등등 을 기준으로 내림차순 정렬을 해보았다.
4. 데이터프레임 생성하기
- 테스트를 위해 데이터 프레임을 생성하였다. 생성하는데에는 딕셔너리안의 리스트 형태 또는 리스트안의 딕셔너리 형태 두 가지 방법으로 생성할 수 있다. 행별로 쓰고 열별로 쓰는 차이라고 보면 될듯하다.
5. 데이터프레임 병합하기
- 판다스의 데이터프레임 병합 메소드에는 여러가지가 있고 나는 가장 간단하고 편한 merge()메소드를 써보았다.
- merge () 메소드의 인자로 기본적으로 병합할 두 개의 데이터 프레임이 들어간다. how 에는 inner(교집합만 가져오기) outer(합집합으로 나타내기) left(left 데이터프레임을 기준으로 right의 값을 가져와서 있다면 합치기) right(right 데이터프레임을 기준으로 left의 값을 가져와서 있다면 합치기)이다.
- on = "" 은, 어떤 컬럼을 기준으로 합칠지 이다. 그 컬럼의 값을 기준으로 같으면 가져오고 말고를 정하게된다.