[Machine Learning] 데이터 인코딩

Oolayla·2023년 3월 6일
0

플레이데이터

목록 보기
15/15
post-thumbnail

⌨️ 데이터 인코딩

  • 머신러닝 알고리즘에서 컴퓨터가 데이터를 이해하고 사용할 수 있도록 데이터를 변환
import pandas as pd

data = {'color': ['Red', 'Blue', 'Green']}
df = pd.DataFrame(data) 
df.head()
color
0Red
1Blue
2Green

◽ One-Hot Encoding

  • Nominal Encoding (순서 정보 X)
  • feature의 항목이 많은 경우 차원의 저주에 빠질 수 있음
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder(handle_unknown='ignore')
df_encoded = pd.DataFrame(
    encoder.fit_transform(df).toarray(), 
    columns = encoder.get_feature_names_out()
)
df_encoded
color_Bluecolor_Greencolor_Red
00.00.01.0
11.00.00.0
20.01.00.0

◽ Label Encoding

  • Ordinal Encoding (순서 정보 O)
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
df['color_encoded'] = encoder.fit_transform(df['color'])
df
colorcolor_encoded
0Red2
1Blue0
2Green1
profile
울레일라

0개의 댓글