⑧ 🤖 Machine Learning 2일차 - 파이프라인(Pipeline) 1

JItzel·2025년 12월 11일

machine learning make_pipeline pipeline

🐡 Machine_learning

목록 보기

8/14

파이프라인(Pipeline): 전처리와 학습을 한 번에 처리

1. 파이프라인(Pipeline)이란?

데이터 전처리(Preprocessing) 단계와 모델 학습(Modeling) 단계를 하나의 객체로 묶어서 순차적으로 실행해주는 기능

사용하는 이유

코드 간소화: 여러 단계를 한 줄의 코드로 관리할 수 있다.
오류 방지 (Data Leakage): 학습 데이터(Train)와 테스트 데이터(Test)에 실수 없이 동일한 변환(Transform)을 적용해준다.
재현성 향상: 전체 워크플로우가 명확해져서, 나중에 다시 실행해도 똑같은 결과를 얻기 쉽다.

2. 방법 1: make_pipeline (간편함)

함수 안에 사용할 클래스(객체)들을 순서대로 나열하면 끝. 이름은 함수이름이 자동으로(소문자) 지정된다.

1) 데이터 준비 (스케일 차이가 큰 데이터)

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import SGDRegressor
from sklearn.preprocessing import MinMaxScaler
from sklearn.pipeline import make_pipeline # ✨ 핵심!

# 데이터 생성
data = [[828, 920, 1234567, 1020, 1111],
        [824, 910, 2345612, 1090, 1234],
        [880, 900, 3456123, 1010, 1000],
        [870, 990, 2312123, 1001, 1122],
        [860, 980, 3223123, 1008, 1133],
        [850, 970, 2432123, 1100, 1221]]
data = np.float32(data)
df = pd.DataFrame(data)

x_data = df.iloc[:, :-1].values
y_data = df.iloc[:, -1].values

2) 파이프라인 생성 및 학습

순서 중요! ( 전처리 $\rightarrow$ ... $\rightarrow$ 모델 )

# 파이프라인 생성: MinMax스케일링 -> SGD회귀분석
model_pipeline = make_pipeline(MinMaxScaler(), SGDRegressor(max_iter=500))

print(model_pipeline)
# 출력 예시:
# Pipeline(steps=[('minmaxscaler', MinMaxScaler()),
#                 ('sgdregressor', SGDRegressor(max_iter=500))])

# 학습 (fit)
# 내부적으로 x_data를 스케일링(fit_transform) 한 뒤 모델에 전달
model_pipeline.fit(x_data, y_data)

3) 예측 (Predict)

예측할 데이터를 날것(Raw Data) 그대로 넣어도, 파이프라인이 알아서 스케일링(transform) 후 모델에 넣어줌

# 새로운 데이터 (스케일링 안 된 원본 값)
new_data = [[828.0, 920.0, 1234567.0, 1020.0]]

# 알아서 변환 후 예측 수행
pred = model_pipeline.predict(new_data)
print(pred)
# 결과: array([762.95549553])

3. 내부 모델 꺼내보기 (named_steps)

파이프라인으로 감싸져 있어도 내부의 기울기( $w$ )나 절편( $b$ )을 확인하는게 가능하다.

# make_pipeline은 클래스 이름을 소문자로 자동 지정함 ('sgdregressor')
model_reg = model_pipeline.named_steps['sgdregressor']

print("기울기:", model_reg.coef_)
print("절편:", model_reg.intercept_)

# 출력 예시
# 기울기: [175.15834 240.64082 246.2967  280.61044]
# 절편: [643.11381433]

4. 방법 2: Pipeline (이름 지정 가능)

Pipeline 클래스를 사용하면 단계별 이름을 내가 원하는 대로 지정할 수 있다.
(이름, 객체) 튜플 리스트 형식을 사용. 나중에 하이퍼파라미터 튜닝(GridSearchCV)을 할 때나 복잡한 모델 관리 시 이 방법이 더 선호된다.

1) 데이터 준비 (Pima Indians)

from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

# 데이터 로드
df = pd.read_csv('data/pima-indians-diabetes.data.csv')
x_data = df.iloc[:, :-1].values
y_data = df.iloc[:, -1].values

# 학습/테스트 분리
x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.2, random_state=42)

2) 파이프라인 구성 및 학습

# 리스트 안에 (이름, 객체) 튜플로 정의
model_pipe = Pipeline([
    ('scaler', StandardScaler()),       # 1단계: 표준화
    ('regress', LogisticRegression(max_iter=500)) # 2단계: 로지스틱
])

# 학습
model_pipe.fit(x_train, y_train)

3) 예측 및 내부 확인

# 예측 (원본 데이터 입력)
print(model_pipe.predict([[6, 148, 72, 35, 0, 33.6, 0.627, 50]]))
# 결과: array([1])

# 내가 지은 이름('regress')으로 내부 모델 접근
model_logi = model_pipe.named_steps['regress']

print("가중치:\n", model_logi.coef_)
print("절편:", model_logi.intercept_)

5. make_pipeline vs Pipeline 차이점

특징	`make_pipeline`	`Pipeline`
사용법	객체만 나열 → `make_pipeline(A(), B())`	`(이름, 객체)` 형태의 리스트 → `Pipeline([('a', A()), ('b', B())])`
이름 지정	자동 생성 (소문자 클래스명)	사용자 지정 가능 (Custom Name)
활용도	빠르고 간단한 실험용	본격적인 프로젝트 개발, 파라미터 튜닝(GridSearch) 등에 적합

요약

Pipeline은 전처리(Scaler)와 모델(Estimator)을 연결해주는 도구다.
fit 한 번으로 전처리와 학습을 완료하고, predict 시에 자동으로 전처리를 적용. (실수 방지)
make_pipeline()은 이름을 자동 생성하고, Pipeline([])은 이름을 직접 지정한다.
내부 속성이 궁금할 땐 .named_steps['이름']으로 접근

JItzel

소금에 절인 생선, 몸을 뒤척이다 🐟

이전 포스트

⑦ 🤖 Machine Learning 2일차 - 정규화(Normalization/Scaling)

다음 포스트

⑧ 🤖 Machine Learning 2일차 - 파이프라인(Pipeline) 1

🐡 Machine_learning

파이프라인(Pipeline): 전처리와 학습을 한 번에 처리

1. 파이프라인(Pipeline)이란?

사용하는 이유

2. 방법 1: make_pipeline (간편함)

1) 데이터 준비 (스케일 차이가 큰 데이터)

2) 파이프라인 생성 및 학습

3) 예측 (Predict)

3. 내부 모델 꺼내보기 (named_steps)

4. 방법 2: Pipeline (이름 지정 가능)

1) 데이터 준비 (Pima Indians)

2) 파이프라인 구성 및 학습

3) 예측 및 내부 확인

5. make_pipeline vs Pipeline 차이점

요약

⑦ 🤖 Machine Learning 2일차 - 정규화(Normalization/Scaling)

⑨ 🤖 Machine Learning 2일차 - 인코딩(Encoding)의 이해

0개의 댓글