[제로베이스] 데이터 사이언스 12기 - (02-28 스터디노트)

윤태호·2023년 2월 28일
0
post-thumbnail

오늘 수강한 강의 - EDA 서울시 범죄 현황 데이터 분석 (18 ~ 23)

18 ~ 21 seaborn

데이터 확인하고 초기 정리하기

  • seaborn은 matplotlib과 함께 실행된다
  • seaborn은 import하는 것만으로도 효과를 준다
  • despine() : 테두리 왼쪽과 아래쪽만 남김
  • sns.set_style("white") : 그리드 없애고 배경 흰색
  • sns.set_style("dark") : 그리드 없애고 배경 어두운색
  • sns.set_style("whitegrid") : 그리드 + 배경 흰색
  • despine(offset=10) : offset에 값을 주면 그래프가 가장자리에서 떨어짐
  • seaborn 에는 실습용 데이터가 몇 개 내장되어 있다
  • 이 중 하나 tips를 불러보자
  • boxplot을 그려볼 수 있다
  • boxplot에 컬럼을 지정
  • hue : 컬럼을 지정하고 구분을 지을 수 있다
  • swarmplot
  • boxplot을 swarmplot과 같이 사용
  • total bill과 tip 사이의 관계 파악
  • implot에서 hue 옵션을 사용
  • 또 다른 데이터로 flights가 있다
  • pivot 옵션을 사용할 수도 있다
  • heatmap을 이용하면 전체 경향을 알 수 있다
  • colormap을 조금 다르게
  • iris 데이터도 있다
  • 다수의 컬럼을 비교하는 pairplot

  • pairplot에서도 hue 옵션

  • 원하는 컬럼만 pairplot
  • 또 다른 데이터로 anscombe가 있다
  • 직선으로 표현
  • 마커 사이즈 변경
  • 2차식을 만들려면 order=1 -> order=2
  • order를 증가시키면 2차식이 됨
  • robust : 강하게
  • 데이터의 경향에서 많이 벗어난 데이터를 없는 셈 쳐줌

22 ~ 23 seaborn

범죄현황 데이터 시각화

  • 앞서했던 matplotlib의 한글 폰트 잡기
  • 윈도우인지,맥인지에 따라 잘 잡아야함
  • mac: ArialUnicodeMS
  • Windows: MalgunGothic

  • pairplot으로 강도, 살인, 폭력에 대한 상관 관계를 보자

  • 인구수, CCTV와 살인, 강도와의 관계도 보자

  • 인구수, CCTV와 살인/폭력 검거율의 관계

    • 인구수, CCTV와 절도/강도 검거율의 관계

  • 검거율만 가지고 heatmap
  • 단, 검거율의 대표값을 검거 기준으로 정렬

  • 범죄발생 건수로 heatmap
  • 대표적인 범죄를 기준으로 정렬

  • 저장

재미있었던 부분

heatmap을 이용한 시각화가 가장 기억에 남는다
화려한 색깔로 표현하니 더 효과가 강력한 시각화 방법인 것 같다

어려웠던 부분

중간에 statsmodels module이 없다는 에러가 떠서 한참동안 해결방법을 찾았는데 결국에는
pip install statsmodels로 설치를 해야했다
주피터 노트북을 사용하면서 가끔 이런 문제들이 일어나면 멈춰서 해결해야만 하기 때문에 번거롭고 직접 찾아야 하는 부분이 좀 어렵다

느낀점 및 내일 학습 계획

몸이 아파서 많이 공부하지는 못했지만 조금이라도 해서 뿌듯하다
내일은 더 힘내서 마저 서울시 범죄현황 데이터 분석을 끝낼 예정이다

profile
부트캠프 참여중

0개의 댓글