⑩ 🤖 Machine Learning 2일차 - 인코딩(Encoding)의 이해

JItzel·2025년 12월 13일

get_dummies label one-hot 데이터마이닝 빅데이터분석가과정 인코딩

🐡 Machine_learning

목록 보기

10/14

인코딩 실전: Label vs One-Hot (수동 변환의 이해)

1. 실습 데이터 준비

수치형 데이터와 범주형 데이터가 섞인 간단한 예제

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder

# 데이터 생성
data = {
    '수치형_특징': [10, 20, 30, 40, 50],       # 그대로 사용
    '범주형_특징': ['A', 'B', 'A', 'C', 'B'],   # 인코딩 필요
    '그대로_유지': [1, 0, 1, 0, 1]              # 라벨(y)
}
df = pd.DataFrame(data)
print(df)

   수치형_특징 범주형_특징  그대로_유지
0      10    	 A       	1
1      20   	 B       	0
2      30   	 A       	1
3      40   	 C       	0
4      50   	 B       	1

2. 라벨 인코딩 (Ordinal Encoding) 직접 구현

범주형 데이터를 정수(0,1,2,..)로 변환한다.

1) 변환 (Fit & Transform)

# dtype=int : 보기 좋게 정수로 변환 (기본값은 float)
encode = OrdinalEncoder(dtype=int)

# 주의: 입력은 항상 2차원 행렬이어야 함! df[['컬럼']]
# fit: A, B, C를 학습
# transform: A->0, B->1, C->2 변환
rst = encode.fit_transform(df[['범주형_특징']])

rst
# array([[0],
       	[1],
        [0],
        [2],
        [1]])

2) 데이터프레임에 적용 및 학습

df['인코딩'] = rst

# 학습 데이터 구성 (수치형 + 인코딩된 범주형)
x_data = df[['수치형_특징', '인코딩']].values
y_data = df['그대로_유지'].values

# 모델 학습
model = LogisticRegression(max_iter=500)
model.fit(x_data, y_data)

print(df)

# 수치형_특징 범주형_특징  그대로_유지  인코딩
0      10      A       		1    	0
1      20      B       		0    	1
2      30      A       		1    	0
3      40      C       		0    	2
4      50      B       		1    	1

3) 예측의 번거로움

"수치형 10, 범주형 A"인 데이터를 예측하고 싶다면?
모델은 'A'를 모른다. 직접 숫자로 바꿔줘야 한다.

# 1. 'A'가 몇 번인지 인코더에게 물어봐서 변환
# 데이터프레임 형태로 넣어줘야 에러 안 남
rst = int(encode.transform(pd.DataFrame({'범주형_특징':['A']})))
print(f"A는 숫자 {rst}입니다.")

# 2. 변환된 숫자(0)를 가지고 예측 수행
print(model.predict([[10, rst]])) 
# array([1])

$\rightarrow$ 매번 예측할 때마다 encode.transform을 호출해야 하는 번거로움 발생

3. 원-핫 인코딩 (One-Hot Encoding) 직접 구현

A, B, C를 각각 독립된 컬럼(0 or 1)으로 쪼개보자.

방법 1: Scikit-learn의 `OneHotEncoder` 사용

sparse_output=False : 결과를 압축하지 않고 0과 1이 다 보이는 배열(Dense)로 반환

oencode = OneHotEncoder(sparse_output=False)

# 변환 수행
result = oencode.fit_transform(df[['범주형_특징']])
print(result)

# 결과
# [[1. 0. 0.]   -> A
#  [0. 1. 0.]   -> B
#  [1. 0. 0.]   -> A
#  ...

데이터 합치기 (Numpy hstack) 기존 데이터와 원-핫 인코딩된 데이터를 옆으로 붙인다.

# df.values(기존) + result(원핫)
arr = np.hstack((df.values, result))

# array([[10, 'A', 1, 1, 0, 0],
       	[20, 'B', 0, 0, 1, 0],
       	[30, 'A', 1, 1, 0, 0],
       	[40, 'C', 0, 0, 0, 1],
       	[50, 'B', 1, 0, 1, 0]], dtype=object)

# 슬라이싱으로 필요한 컬럼만 선택 (수치형 + 원핫3개)
# 0: 수치형, 3,4,5: 원핫인코딩된 컬럼들
x_data = arr[:, [0, 3, 4, 5]] 
y_data = arr[:, 2] # 라벨

방법 2: Pandas get_dummies 사용

# dtype=int: True/False 대신 1/0으로 반환
result = pd.get_dummies(df['범주형_특징'], dtype=int)

# pd.concat으로 옆으로 붙이기 (axis=1)
cdf = pd.concat([df, result], axis=1)

print(cdf)
#    수치형  범주형  ...  A  B  C
# 0    10     A   ...  1  0  0
# ...

학습 및 예측의 난관

# 학습 데이터 준비
x_data = cdf[['수치형_특징', 'A', 'B', 'C']].values
y_data = cdf['그대로_유지']

model = LogisticRegression(max_iter=500)
model.fit(x_data, y_data)

예측 시나리오: (수치: 10, 범주: A) 예측하기 모델은 [수치, A, B, C] 형태의 4개 입력을 기다리고 있음

# ❌ model.predict([[10, 'A']]) -> 에러 발생!

# ✅ 직접 [10, 1, 0, 0] 형태로 만들어줘야 함

# 1. 인코더를 통해 'A'에 해당하는 벡터 구하기 ([1, 0, 0])
res = oencode.transform([['A']])[0] 

# 2. 리스트 합치기
my_input = []
my_input.append(10)
my_input.extend(res) # [10, 1, 0, 0] 완성

# 3. 예측
print(model.predict([my_input]))
# array([1])

4. 결론: 왜 파이프라인을 써야 하는가?

새로운 데이터가 들어올 때마다 학습 때 썼던 인코더 객체를 가져오고,
문자를 숫자로 변환(transform)하고,
기존 수치 데이터와 합쳐서(Merge) 모델에 넣어주는 이 모든 과정을 한번에 처리 가능

Pipeline을 쓴다면?

# 파이프라인 예시
pipeline.fit(x_train, y_train)

# 예측
# 그냥 날것 그대로 넣으면 알아서 변환하고 예측까지 끝!
pipeline.predict([[10, 'A']])

핵심 요약:
학습 과정을 이해하기 위해 수동 인코딩을 해보는 것은 공부에 큰 도움이 된다.
하지만 실무나 실제 프로젝트에서는 정신 건강과 코드 간결성을 위해 Pipeline이나 ColumnTransformer를 권장!

요약

Label Encoding: OrdinalEncoder (트리 모델용)
One-Hot Encoding: OneHotEncoder 또는 pd.get_dummies (선형/거리기반 모델용)
결합: np.hstack (배열 결합) 또는 pd.concat (데이터프레임 결합)

JItzel

소금에 절인 생선, 몸을 뒤척이다 🐟

이전 포스트

⑨ 🤖 Machine Learning 2일차 - 인코딩(Encoding)의 이해

다음 포스트

⑩ 🤖 Machine Learning 2일차 - 인코딩(Encoding)의 이해

🐡 Machine_learning

인코딩 실전: Label vs One-Hot (수동 변환의 이해)

1. 실습 데이터 준비

2. 라벨 인코딩 (Ordinal Encoding) 직접 구현

1) 변환 (Fit & Transform)

2) 데이터프레임에 적용 및 학습

3) 예측의 번거로움

3. 원-핫 인코딩 (One-Hot Encoding) 직접 구현

방법 1: Scikit-learn의 `OneHotEncoder` 사용

방법 2: Pandas get_dummies 사용

학습 및 예측의 난관

4. 결론: 왜 파이프라인을 써야 하는가?

Pipeline을 쓴다면?

요약

⑨ 🤖 Machine Learning 2일차 - 인코딩(Encoding)의 이해

⑪ 🤖 Machine Learning 2일차 - 파이프라인(Pipeline) 2

0개의 댓글

⑩ 🤖 Machine Learning 2일차 - 인코딩(Encoding)의 이해

🐡 Machine_learning

인코딩 실전: Label vs One-Hot (수동 변환의 이해)

1. 실습 데이터 준비

2. 라벨 인코딩 (Ordinal Encoding) 직접 구현

1) 변환 (Fit & Transform)

2) 데이터프레임에 적용 및 학습

3) 예측의 번거로움

3. 원-핫 인코딩 (One-Hot Encoding) 직접 구현

방법 1: Scikit-learn의 OneHotEncoder 사용

방법 2: Pandas get_dummies 사용

학습 및 예측의 난관

4. 결론: 왜 파이프라인을 써야 하는가?

Pipeline을 쓴다면?

요약

⑨ 🤖 Machine Learning 2일차 - 인코딩(Encoding)의 이해

⑪ 🤖 Machine Learning 2일차 - 파이프라인(Pipeline) 2

0개의 댓글

방법 1: Scikit-learn의 `OneHotEncoder` 사용