작은 feature engineering

yuns_u·2021년 8월 29일
0

.count() vs .size()

  • .count() : row의 개수.
  • .size() : null 값(결측치)을 제외한 row의 개수.

Series Data를 DataFrame으로 출력하기

  • pd.DataFrame() : 데이터 프레임으로 출력하기.
  • reset_index(): 한 줄에 dataframe으로 출력된다.

데이터 등급 나누기

  • pd.qcut() : 전체 데이터를 크기 순으로 size가 같게 분할(분할된 데이터 개수 같음)
# 전체 데이터를 5등분해 등급을 나눈다
df['grade'] = pd.qcut(df['score'], 5, labels=['E', 'D', 'C', 'B', 'A'])
  • pd.cut() : 전체 데이터의 범위를 똑같이 나눠 분할(분할된 데이터 개수 다를 수 있음)
profile
💛 공부 블로그 💛

0개의 댓글