Day 43. 4/17(월) EDA 05

이동은·2023년 4월 18일

제로베이스 데이터 사이언스 스쿨 13기 EDA

목록 보기

4/5

오늘의 목표

범죄파트 끝내기

오늘의 달성목표

범죄파트 3 끝내기

오늘을 마치며

요즘 수업에 대한 집중도와 열의가 점점 떨어지고 있는거 같다.
그래서 진도가 점점 밀리고 있는데, 마음을 다잡아야 할거 같다. 나 스스로 극복하는거 말고는 방법이 없으니 말이다. 화이팅하자!!! 거북이처럼 느리지만 결승전까지 지치지 않고 달려가야지.

4/17일 월요일

8. 범죄 데이터 정렬을 위한 데이터 정리

8-1) 평균화 : 최고값은 1, 최소값은 0

crime_anal_gu['강도'] / crime_anal_gu['강도'].max()

np.mean()

numpy의 나눗셈값이다.
numpy에서는 axis=1 행, axis=0 열 pandas와 반대이다.

8-2) 검거율 추가

8-3) 구별 CCTV 자료에서 인구수와 CCTV수 추가

8-4) 정규화된 범죄발생 건수 전체의 평균을 구해서 범죄 컬럼 대표값으로 사용

8-5) 검거율 평균을 구해서 검거 컬럼의 대표값으로 사용

Seaborn

예제1 : seaborn 기초

sns.set_style()
white', 'whitegrid', 'dark', 'darkgrid', 'ticks'

예제2: seaborn tips data

boxplot
swarmplot
lmplot

boxplot

hue, palette 옵션 사용 가능
hue는 카테고리를 데이터로 표현하는 옵션
palette 옵션은 Set 1~3까지 존재

swarmplot

color 값은 0~1사이의 값을 조절하는 옵션

lmplot

total_bill과 tip 사이 관계 파악
hue 옵션을 통해 카테고리를 나눌 수 있음(ex: 남자/여자)

예제3: flights data

heatmap으로 표시
pivot으로 데이터 정리(index, columns, values)
annot=True는 데이터 값을 표시, fmt='d'는 정수형을 표시
colormap을 이용하여 히트맵 색상을 변경할 수 있음

예제4: iris data

pairplot
sns.set_style('ticks')
sns.pairplot(iris)
plt.show() 를 통하여 모든 데이터의 차트를 나타낼 수 있음

예제5: anscombe data

lmplot
data=anscombe.query('dataset == "I"'를 통해 원하는 데이터만 출력 가능
order를 통해 데이터 값에 맞는 출력가능
robust=True를 통해 outlier데이터 무시 가능

[본 내용의 글 중 일부는 제로베이스 데이터스쿨 강의 자료 중 일부에서 발췌한 내용이 포함되어 있습니다. ]

또 다른 나를 찾아서

이전 포스트

Day 39. 4/13(목) EDA 04

다음 포스트

Day 45. 4/18(수) EDA 06

0개의 댓글