20220730 공부 기록

Tino-Kim·2022년 7월 30일
0
post-thumbnail

20220730 공부 기록

(1) 데이터 분석 공부 기록

titanic dataset에서 나이가 feature가 될 수 있는지 없는지를 확인하고 싶었다. 그런데 histplot으로 그렸더니, 관계성을 파악하기 힘들었다. 그래서 histplot과 선이 함께 그려지고, 생존 여부도 따로 그려지는 그래프 를 그렸다. 그 그래프가 displot (개정 되기 전 함수는 distplot) 이였고, 아래 링크를 통해서 FacetGrid parameter를 함께 사용할 수 있음을 알게 되었다.

sns.displot(data=df, x="age", col="pclass", hue="survived", kde=True)
# 이 그래프가 관계성을 파악하기에는 가장 보기 좋은 그래프이다.
# 이 그래프를 통해서 확실하게 나이와 객실 등급에 따라 생존 여부가 달라짐을 알 수 있다. feature로 지정하기.

위의 그림은 add categories를 이용해서 size column에 카테고리를 추가함을 보여주고 있다.

javascript에서는 삼항 조건 연산자가 따로 있었는데, 이와 비슷한 연산자는 np.where 이다.

np.where(조건, 조건이 참인 경우 값, 조건이 거짓인 경우 값)

한 권으로 끝내는 <판다스 노트>

  • 복사
  • 결측치 : 결측치 확인, 결측치 아닌 값 확인, 결측치 채우기 (통계값, 최빈값), 결측치 제거하기
profile
알고리즘과 데이터 과학과 웹 개발을 공부하는 대학생

0개의 댓글