[MLOps] 데이터 전처리

이정연·2023년 3월 20일
0

Play Data

목록 보기
7/26

깔끔한 데이터의 조건

  • 데이터 분석 목적에 맞는 데이터를 모아 새로운 테이블 생성
  • 측정값은 row
  • 변수는 column

groupby(as_index)

groupby를 하고 다시 일반적인 데이터프레임 형태로 돌아가고자 할 때, reset_index를 사용한다.

그런데 매번 일일이 이 함수를 사용하기에는 상당히 귀찮은 일이므로 이 때 간편하게 groupby가 적용된 테이블을 인덱스로 보여주지 않고 column으로 보여주도록 하는 옵션이 있다.

as_index = False로 설정하면 바로 적용됨!

Example

subway dataframe

temp = subway
temp.groupby(['호선']).sum()

temp.groupby(['호선'],as_index=False).sum()

pymysql vs sqlalchemy

pymysql --> light version
sqlalchemy --> so powerful

pymysql은 orm(object relational mapping)이 아니기 때문에 python의 객체(데이터프레임 등)를 연동시키지 못한다. 대신 csv,xlsx 등의 파일은 가능!

sqlalchemy는 orm이기 때문에 python에서 작업한 데이터프레임을 그대로 DB로 연동 가능!

범주형 데이터 인코딩 방식

Label encoding

남,여 --> 1,2

One hot encoding

남,여 --> 1,0 0,1

profile
0x68656C6C6F21

0개의 댓글