⑪ 🤖 Machine Learning 2일차 - 파이프라인(Pipeline) 2

JItzel·2025년 12월 13일

ColumnTransformer SimpleImputer machine learning pipeline 빅데이터분석가과정

🐡 Machine_learning

목록 보기

11/14

파이프라인 심화 (ColumnTransformer & Imputer)

Pipeline은 모든 데이터에 똑같은 전처리를 적용한다.
그러나 실제 데이터셋에는 숫자(Scaling 필요)와 문자(Encoding 필요)가 섞여있기 때문에 복합적인 필요가 필요.

1. 단순 Pipeline의 한계

import pandas as pd
import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import OrdinalEncoder

# 데이터 준비
data = {
    '수치형_특징': [10, 20, 30, 40, 50],
    '범주형_특징': ['A', 'B', 'A', 'C', 'B'],
    '그대로_유지': [1, 0, 1, 0, 1]
}
df = pd.DataFrame(data)

# 문제 상황: 파이프라인에 인코더만 넣음
model_pipe = Pipeline([('encode', OrdinalEncoder()),
                       ('logi', LogisticRegression())])

x_data = df.iloc[:, :-1].values
y_data = df.iloc[:, -1].values

model_pipe.fit(x_data, y_data)

# 인코더가 학습한 범주 확인
enc = model_pipe.named_steps['encode']
print(enc.categories_)
# 결과:
# [array([10, 20, 30, 40, 50], dtype=object),  <-- 숫자형 컬럼까지 인코딩해버림!
#  array(['A', 'B', 'C'], dtype=object)]

문제점: Pipeline은 들어온 모든 데이터(x_data)에 일괄적으로 변환을 시도.
수치형 데이터까지 인코딩 되버림.

ColumnTransformer

서로 다른 열(Column)에 서로 다른 전처리 작업을 독립적으로 수행하고, 나중에 하나로 합쳐준다.

구조
transformers 리스트: (이름, 변환기, [적용할 컬럼]) 형태의 튜플을 담음.
remainder='passthrough': 지정하지 않은 나머지 컬럼들은 건드리지 말고 통과시키라는 옵션 (기본값은 'drop'이라 다 버려집니다. 주의!)

1) 데이터 형태에 따른 적용 방법

Case A: Numpy Array (인덱스 사용)

from sklearn.compose import ColumnTransformer

# 1번째 열(범주형_특징)만 인코딩하고, 나머지는 통과
# [1] 처럼 리스트로 감싸야 함
column_preprocessor = ColumnTransformer(
    [('enc', OrdinalEncoder(), [1])], 
    remainder='passthrough'
)

# 파이프라인 결합
model_cpipe = Pipeline([
    ('ct', column_preprocessor),
    ('logi', LogisticRegression(max_iter=500))
])

# 예측 시에도 Array 형태로 입력
model_cpipe.fit(x_data, y_data)
print(model_cpipe.predict([[10, 'A']])) # array([1])

Case B: Pandas DataFrame (컬럼명 사용)

# DataFrame으로 분리
x_df = df.iloc[:, :-1] # DataFrame 유지
y_df = df.iloc[:, -1]

# 컬럼명으로 지정 가능
column_preprocessor = ColumnTransformer(
    [('enc', OrdinalEncoder(), ['범주형_특징'])],
    remainder='passthrough'
)

model_cpipe = Pipeline([
    ('ct', column_preprocessor),
    ('logi', LogisticRegression(max_iter=500))
])

model_cpipe.fit(x_df, y_df)

# 예측 시 DataFrame 생성해서 입력 (컬럼명 매칭 필수)
new_df = pd.DataFrame({'수치형_특징':[10], '범주형_특징':['A']})
print(model_cpipe.predict(new_df)) # array([1])

2) 복합 전처리 적용 (Encoding + Scaling)

수치형은 스케일링, 범주형은 인코딩을 동시에 적용

from sklearn.preprocessing import StandardScaler

# 전처리 리스트 정의
transformers_list = [
    ('enc', OrdinalEncoder(), ['범주형_특징']),      # 범주형 -> 인코딩
    ('scale', StandardScaler(), ['수치형_특징'])     # 수치형 -> 스케일링
]

# ColumnTransformer 생성
ct = ColumnTransformer(transformers_list, remainder='passthrough')

3. 결측치 처리: SimpleImputer

SimpleImputer : 데이터에 존재하는 NaN을 채워줌.
전략 (Strategy)

mean: 평균값 (수치형)

median: 중앙값 (수치형, 이상치에 강함)

most_frequent: 최빈값 (범주형/수치형 모두 가능)

constant: 특정 상수 값 (0, 'Unknown' 등)

from sklearn.impute import SimpleImputer

# 전처리기 안에 Imputer 포함시키기 예시
# (주의: Imputer는 보통 단독으로 쓰거나 Pipeline 내부에 포함됨)

# 예: NaN 컬럼은 중앙값으로 채우고, 범주형은 인코딩, 수치형은 스케일링
model_list = [
    ('nan', SimpleImputer(strategy='median'), ['NaN컬럼']),
    ('enc', OrdinalEncoder(), ['범주형_특징']),
    ('scale', StandardScaler(), ['수치형_특징'])
]

예제 : 현대차 가격 예측

목표: 년식, 종류, 연비, 마력, 토크, 연료 정보를 통해 가격 예측
데이터: hyundaiCar.xlsx

1) 데이터 로드 및 분리

import pandas as pd
from sklearn.linear_model import SGDRegressor
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder

# 데이터 로드
hDF = pd.read_excel('data/hyundaiCar.xlsx', sheet_name='train')

# 특성(X)과 타겟(y) 분리
# 종류, 연료 -> 범주형 (OneHotEncoder)
# 년식, 연비, 마력, 토크 -> 수치형 (StandardScaler)
x_data = hDF[['년식', '종류', '연비', '마력', '토크', '연료']]
y_data = hDF[['가격']]

2) 전처리기(Preprocessor) 구성

# 전처리 규칙 정의
# 1. 범주형(종류, 연료) -> 원-핫 인코딩
# 2. 수치형(년식, 연비, 마력, 토크) -> 표준화(StandardScaler)
#    (년식은 숫자가 클수록 새 차이므로 수치형으로 스케일링 처리함)

m_list = [
    ('enc', OneHotEncoder(), ['종류', '연료']),
    ('scale', StandardScaler(), ['년식', '연비', '마력', '토크'])
]

# 나머지 컬럼이 없으므로 remainder는 생략하거나 passthrough
h_preprocessor = ColumnTransformer(m_list, remainder='passthrough')

3) 파이프라인 생성 및 학습

모델로 SGDRegressor를 사용합니다. 경사하강법 기반 모델이므로 스케일링(StandardScaler)이 필수

# 파이프라인: 전처리 -> 모델
h_pipe = Pipeline([
    ('ctp', h_preprocessor),
    ('model', SGDRegressor(max_iter=500, verbose=1))
])

# 학습 (전처리가 내부에서 자동으로 수행됨)
h_pipe.fit(x_data, y_data)

4) 신차 가격 예측

2015년식 준중형 가솔린 차량의 가격 예측

# 입력 데이터도 DataFrame으로 만들어야 컬럼명 매칭이 됨
new_car = pd.DataFrame({
    '년식': [2015],
    '종류': ['준중형'],
    '연비': [12.3],
    '마력': [204],
    '토크': [27],
    '연료': ['가솔린']
})

# 예측
predicted_price = h_pipe.predict(new_car)
print(f"예측 가격: {predicted_price}")

# 결과 예시
# array([2788.91...]) -> 약 2,788만 원 예측