EDA(6)_서울시 CCTV 분석 프로젝트 : 데이터 훑어보기, 데이터 합치기(이론)

Jio.B·2023년 7월 3일
0

CCTV/인구현황 데이터 훑어보기

  • 인구현황 데이터(raw) ---> drop 적용하기

< 참고 >

  • axis = 0 ---> 가로축, 행(row) 데이터 삭제 시 (인덱스 번호 필수)
  • axis = 1 ---> 세로축, 열(column) 데이터 삭제 시 (컬럼명 필수)

unique( )

  • 고유한 값의 리스트 확인(중복제외)

len( )

  • 길이, 아이템 개수 확인

sort_values( )

  • 다양한 기준별 정렬 확인

데이터 합치기

<이론>

  • merge( )를 이용한 데이터 병합
  1. Pandas DataFrame 데이터 간 병합은 빈번하게 발생
  2. 병합 후 데이터가 엉망이 되지 않도록 각별히 주의할 것!
    (정확하게 병합이 되었는지 확인하는 것도 관건...)

[예시] left & right = 두 개의 데이터 준비

merge(... on="key")

  1. "key" 를 기준으로 병합
    : 양쪽 모두 공통으로 보유한 값을 key 컬럼 기준으로 병합

merge(... how="valueA", on="key")

  1. "key" 기준 + how 추가
    : how를 추가함으로써, left 데이터를 모두 유지시키되 key 칼럼을 중심으로 병합

merge(... how="outer", on="key")

  1. (합집합 개념) "key" 기준 + how="outer"
    : key 컬럼을 중심으로 + 양쪽 모두 손상된 값 없이 그대로 병합

merge(... how="inner", on="key")

  1. (교집합 개념) "key" 기준 + how="inner"
  • key 컬럼을 중심으로 + 양쪽 모두 보유하고 있는 공통된 값만 병합
  • pd.merge(left,right, on="key")와 사실상 동일한 결과를 나타냄
    = how 없이 key값만 설정할 경우(1번 예시), how의 디폴트 값은 자동으로 inner로 적용됨


<실습>

  1. merge를 이용하여 '인구 데이터'와 'CCTV 데이터' 합치기

  1. del 이용하여 분석에 필요없는 데이터 컬럼 지우기

  1. set_index를 이용하여 index를 재지정 하기
  • pandas에서 자동으로 설정한 인덱스(0,1,2...)를 데이터 정제과정에서 재지정
  • unique한 인덱스(=복수가 아닌 하나씩만 존재하는 인덱스)로 재지정하여야 시각화 자료 작성 시 유리함

  1. corr( ) 이용하여 상관관계(Correlation) 훑어보기
  • 데이터의 관계를 찾을 때 최소한의 근거가 있어야 해당 데이터를 비교하는 의미가 있음
  • 상관계수를 조사하여 0.2 이상의 데이터를 비교하는 것을 권장(ㅣ0 < r < 1 l )

0.2 이하 = 상관관계가 없거나 무시해도 되는 수준
0.4 이하 = 약한 상관관계
0.6 이상 = 강한 상관관계

  1. 인구대비 CCTV 비율을 의미하는 칼럼(CCTV비율)을 추가하여 정렬

  1. matplotlib을 이용하여 분석 결과 시각화하기 - to be cotinued

0개의 댓글

관련 채용 정보