Pipeline

yuns_u·2021년 8월 21일
0

pipeline(파이프라인)이란?

모델을 만들때 진행했던 결측치 처리, 스케일링, 모델학습 등 머신러닝 프로세스에서 파이프라인(Pipelines)을 사용하면 중복 코드를 최소화여 쉽게 연결할 수 있다.

sklearn.pipeline

💛 장점

  • 코드가 간결해지고 가독성이 증가한다.
  • 여러 Machine learning 모델을 같은 전처리 프로세스에 연결시킬 수 있다.
  • 그리드서치(grid search)를 통해 여러 하이퍼파라미터를 쉽게 연결할 수 있다.

pipeline에서 모델의 파라미터 등과 같은 정보를 확인하는 방식

6.1.1.1.2. Accessing steps

from sklearn.pipeline import Pipeline

pipe.named_steps

named_steps속성을 사용해서 파이프라인의 각 스텝에 접근이 가능하다. 이 속성은 유사 딕셔너리 객체(dictionary-like object)로 파이프라인 내 과정에 접근 가능하도록 하기 때문이다.

target feature와 각 feature들의 상관계수를 바그래프로 나타내는 것 같다.

import matplotlib.pyplot as plt

model_lr = pipe.named_steps['logisticregression']
enc = pipe.named_steps['onehotencoder']
encoded_columns = enc.transform(X_val).columns
coefficients = pd.Series(model_lr.coef_[0], encoded_columns)
plt.figure(figsize=(10,30))
coefficients.sort_values().plot.barh();
profile
💛 공부 블로그 💛

0개의 댓글