범죄데이터

yoong·2023년 5월 10일

6.EDA

목록 보기
3/8

1. Analysis Seoul Crime

  1. 사용된 프로그램들
    : GoogleMaps,Folium,Seaborn,Pandas<Pivot_table>

  2. 데이터 정보:

2. Steps

01. 데이터 개요

  1. numpy 파일과 pandas 불러오기
import numpy as np
import pandas as pd 
  1. 데이터 읽기
#thousands: 숫자값을 문자로 인식할 수 있기 때문에 설정! 
crime_raw_data = pd.read_csv("../data/02. crime_in_Seoul.csv", 
                             thousands=",",encoding="euc-kr")
crime_raw_data.head()

3.info() : 데이터 개요 확인

crime_raw_data.info() 

-> RangeIndex가 65334개라고 뜨는데 310개만있다고 뜸 -> 뭔가 문제있음을 알아채기

  1. isnull(): null값 확인하기 (T/F값으로 나옴)

  2. 원데이터로 마스크 씌어주면 컬럼으로 나옴

crime_raw_data[crime_raw_data["죄종"].isnull()].head()
  1. null을 제외한 value값 있는 애들만 가져온뒤, 다시 변수에 할당후 정보확인
crime_raw_data = crime_raw_data[crime_raw_data["죄종"].notnull()]
crime_raw_data.info()
#name 인덱스를 두고 정리하라 
pd.pivot_table(df, index=["Name"])

  • 주피터 노트북에서 엑셀파일 처음 불러올때 openpyxl 오류 발생! -> 코드 입력해서 openpyx1 설치해주면 된다! (mac m1기준)
%pip install openpyx1 

02.

: 경찰서 이름을 index로 정리 defaul 평균(mean) 사건의 합을 기록하기 위해 aggfunc 옵션에 sum 사용

03. 파이썬모듈 설치

  • 새로운 모듈을 직접 설치 해야함
  1. pip 명령
  • 파이썬의 공식 모듈 관리자
  • pip list : 현재 설치된 모듈 리스트 반환
  • pip install module_name : 모듈 설치
  • pip uninstall module_name : 설치된 모듈 제거
#방법1: !의경우 주피터노트북 외 바로 코드를 export시키는 경우 느낌표명령은 에러가 남  
!pip list

#방법2
get_ipython().system("pip list")
  1. conda 명령
    : pip를 사용하면 conda 환경에서 dependency 관리가 정확하지 않을 수 있음.
    아나콘다에서는 가급적 conda 명령으로 모듈을 관리하는 것이 좋음 , 모든 모듈이 conda로 설치되는건아님
    (ex mac m1은 arm계열의 모듈을 설치해야함 >>> conda에서는 해당 모듈이 모여있는 채널을 별도 운영)
  • conda list: 설치된 모듈 list
  • conda install module_name : 모듈 설치
  • conda uninstall module_name : 모듈 제거
  • conda install -c channel_name module_name:지정된 배포 채널에서 모듈 설치

04. Google Maps API 설치

: 구글에 conda install googlemaps 서치

  • 모든 모듈이 깔끔하게 설치되는 것은 아님 (python 세계 모듈간 dependcy문제와 개인 pc환경 문제등) 안될때 검색하기~~
  • 구글맵을 활용하자(module)을 깔았음. // 구글인증key받아야함

Reference

  • 이글은 제로베이스 데이터 취업 스쿨의 강의자료 일부를 발췌하여 작성되었음.
profile
데이터와 이미지로 세상을 공부하는 중입니다 :)

0개의 댓글