Project1. Analysis Seoul CCTV _제로베이스 강의_1

JoQuri(조규리)·2023년 12월 5일
0

EDA Project

목록 보기
1/7
post-thumbnail

1. 프로젝트 개요

  • 서울시 인구 대비 각 자치구별 CCTV의 수 확인 및 경향 파악
  • 경향에 비해 오차가 큰 서울시 자치구 파악

2. 데이터 개요

1. 데이터셋 확보

: 서울시 주민등록인구 (구별) 통계
: 서울시 자치구 년도별 CCTV 설치 현황

2. 데이터 확인

  • 서울시 자치구 년도별 CCTV 설치 현황 (csv파일-한글encoding='utf-8')

  • 서울시 주민등록인구 (구별) 통계 (필요한 부분만 추출)

    ** rename(): 컬럼 이름 수정
    ** inplace=True: 자료 업데이트 저장

3. 데이터 정리

  • CCTV 데이터 정렬 & 최근 증가율 추가과 상위 5구
    ** sort_values(by='기준', ascending=T/F) : 정렬
    ** 컬럼추가: datafame['컬럼명'] = [리스트 내용]

  • 인구수 파일 필요없는 부분 삭제 및 인구수 정렬 확인
    ** drop([이름], axis=0(가로/1:세로), inplace=True): 특정 인덱스나 컬럼 삭제
    ** unique(): 중복 제외 데이터 확인(초반 데이터 검증과 데이터 합칠때 용이)

4. 데이터 병합 및 수정

  • 구별을 기준으로 두 데이터 합치기 & 필요없는 부분 삭제 및 인덱스 변경

  • CCTV비율(CCTV소계/인구수) 추가

    ** merge(left, right, ,how='방법'(디폴트-inner) ,on='기준'): 데이터 병합
    ** del키워드: 특정 컬럼 삭제
    ** set_index() 주의: 기존에 없는 유니크한 이름으로 할것

  • 상관계수 확인(인구수와 소계 사이에 약한 상관관계가 있음(0.23)
    ** 상관계수란?(corr())
    :두 변량 사이에 한쪽이 증가하면 나머지 한 쪽이 증가(양)/감소(음) 경향이 있을 때, 이 두 변량 사이를 '상관관계'. 단, 상관관계가 있다고 인과관계인 것은 아님!(0.2이하:무시해도 좋은 수준 / 0.4이하: 약함 / 0.6이상: 강한 상관관계)

5. 데이터 시각화

  • matplotlib 준비:
    import matplotlib.pyplot as plt
    from matplotlib import rc
    rc('font',family='Malgun Gothic')
    plt.rcParams['axes.unicode_minus']
    get_ipython().run_line_magic("matplotlib","inline")

  • CCTV비율(인구수 대비) 시각화
    ** 그래프를그리는코드를def()로작성

6. 데이터 경향 표시

  • Trend 파악(numpy활용 1차 직선)
    : 보유 데이터를 토대로 서울시 구 인구 대비 CCTV의 보유량 예측
  • 인구수와 소계로 scatter plot & 경향선(Trend) 표시

7. 강조하고 싶은 데이터 시각화

  • 경향과의 오차 컬럼 만들기

  • 경향과의 오차 큰 자치구 정렬

  • 오차를 강조한 데이터 시각화

** c=, cmap=, colorbar(): colormap활용하여 오차에 따라 사용자정의한 컬러 구별
** text(): 오차가 큰/적은 구 이름 표시!

  • 저장: data_result.to_csv("../data/01.CCTV_result.csv", sep=",", encoding="utf-8")

0개의 댓글