15기 데이터 취업 스쿨 / 23일차 스터디노트 / 서울시 CCTV 데이터와 연구현황 데이터 합치기

구명모·2023년 5월 30일

EDA

목록 보기
3/15
post-thumbnail

지난 시간에 했던 것들을 토대로 서울시 CCTV 현황을 불러와서 column "기관명"을 "구별"로 변경한다.
head()와 tail()을 써서 각각 상위, 하위 5개씩 리스트를 출력. tail()을 이용해서 총 index가 몇개인지도 살펴볼 수 있다.
소계라는 변수를 기준으로 sort_values() 를 써서 데이터를 정렬한다. 소계 데이터가 오름차순으로 가면 아무것도 입력하지 않은 디폴트 값으로 써내려가거나 ascending = True로 오름차순 설정을 하고 내림차순으로 할때는 ascending = False로 설정해준다.
컬럼을 추가하고 정렬해줌
unique() 메소드는 "구별"이라는 컬럼 안에 어떠한 데이터가 나타났는지 보여줌
컬럼을 추가원하는 값 기준에 따라 정렬을 할수있다.

DataFrame을 구현하는 두가지 방법

  • 딕셔너리 안에 리스트 : 열을 기준으로 구현
  • 리스트 안에 딕셔너리 : 행을 기준으로 구현

Pandas에서 데이터 프레임을 병합하는 방법
pd.concat()
pd.merge() √
pd.join()

  • 두 데이터 프레임에서 컬럼이나 인덱스를 기준으로 잡고 데이터를 병합하는 방법
  • 기준이 되는 컬럼이나 인덱스를 키값이라고 한다
  • 기준이 되는 키값은 두 데이터 프레임에 모두 포함되어 있어야 한다
    pd.merge() 안에 병합할 두 데이터와 공통될 키값을 입력한다. how에 들어가는 것은 how에 들어가는 데이터를 기준으로 합친다. 그래서 각각을 보면 두번째 사진에는 left에 K4에 C1, C2, 세번째 사진에는 K1에 A1, B1이 존재하지 않아서 Nan으로 출력된 모습이다. 데이터를 합칠시 how의 디폴트 값은 교집합을 뜻하는 inner이다. 여기서 how를 outer로 바꾸면 합집합이 된다.
    서울시 CCTV와 인구중 공통된 구별을 기준으로 해서 합친다.

인덱스 변경
-set_index
-선택한 컬럼을 데이터 프레임의 인덱스로 지정
set_index()를 통해 인덱스로 사용하고 싶은 컬럼을 입력한다

상관계수

  • corr()
  • correlation 의 약자
  • 상관계수가 0.2 이상인 데이터 비교
profile
데린이

0개의 댓글