오늘은 미니프로젝트6 4일차로 머신러닝을 이어서 진행했습니다.
실질적으로 어제 미니프로젝트를 모두 끝내서 오늘은 대망에 내일 있는 AICE 자격시험을 공부했습니다. 자격시험 공부하면서 공부한 코드 위주로 작성하겠습니다.
해당 컬럼에 '_'값이 있는지 알고 싶을 때는 df['컬럼명'] == '_'을 사용한다면 '_'이 값인 행들은 true를 반환해줍니다. 여기서 조금 더 변형을 한다면 해당 행에 '_'을 가진 행의 비율도 알 수 있습니다. 변형 코드는 아래와 같습니다.
(df['컬럼명'] == '_').mean()
해당 코드를 사용해주면 '_'이 행에 총 얼마나 있는지 알 수 있습니다.
df.select.dtypes(include='object')
해당 코드를 사용하면 컬럼의 형태가 object타입인 컬럼들을 반환해줍니다.
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['컬럼명'] = le.fit_transform(df['컬럼명'])
해당 코드를 사용하면 object 타입인 컬럼에 대해서 int형으로 변환이 가능해집니다. 원-핫 인코딩과 비슷한 역할이지만 추가적으로 컬럼을 안만들어낸다는 차이점이 있습니다.
내일 제발 시험 잘 보길...
※공부하고 있어 다소 틀린점이 있을 수 있습니다. 언제든지 말해주시면 수정하도록 하겠습니다.
※용어에 대해 조금 공부 더 해서 수정하겠습니다.