머신 러닝에서 인코딩 (encoding) 이란, string 데이터를 숫자 데이터로 변환시키는 것을 말한다.
일반적인 머신 러닝 알고리즘은 숫자 데이터를 기반으로 예측을 하기 때문에, 인코딩 작업이 필요하다.
인코딩은 크게 레이블 인코딩과 원핫 인코딩으로 나뉜다.
from sklearn.preprocessing import LabelEncoder
df = df.apply(LabelEncoder().fit_transform)
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder(sparse=False)
ohe.fit(df[['col1']])
import pandas as pd
columns = df.columns.tolist() # 전체 column에 대해서 one-hot encoding을 진행하겠다.
df1 = pd.get_dummies(df, columns=columns)
https://wikidocs.net/60853#:~:text=1.%20원%2D핫%20인코딩(,의%20벡터%20표현%20방식입니다
https://wikidocs.net/29530