๊ธฐ๋ก๊ณผ ์๊ฐ์ ํด๊ฒฐํ์๋ค.
์๋ํ๋ฅผ ํตํ์ฌ ์๋ฌ ์์ง๋ฅผ ์ค์ด๊ณ ๋ฐ๋ณต์ ๋น ๋ฅด๋๋ก ํด์ค๋ค.

ML Pipeline์์๋ DataFrame์ด ๊ธฐ๋ณธ ๋ฐ์ดํฐ ํฌ๋งท์ด๋ค.
๊ธฐ๋ณธ์ ์ผ๋ก CSV, JSON, Parquet, JDBC(RDB)๋ฅผ ์ง์ํ๋ค.
ML Pipeline์์ ๋ค์ 2๊ฐ์ง ์๋ก์ด ๋ฐ์ดํฐ์์ค๋ฅผ ์ง์ํ๋ค.
Input DataFrame์ ๋ค๋ฅธ DataFrame์ผ๋ก ๋ณํ
-> ํ๋ ์ด์์ ์๋ก์ด ์ปฌ๋ผ์ ์ถ๊ฐํ๋ค.
๋ ์ข
๋ฅ์ Transformer๊ฐ ์กด์ฌํ๋ฉฐ Transform์ด ๋ฉ์ธ ํจ์์ด๋ค.
-> Feature Transformer & Learning Model
Feature Transformer
Input DataFrame์ ์ปฌ๋ผ์ผ๋ก๋ถํฐ ์๋ก์ด ์ปฌ๋ผ์ ๋ง๋ค์ด๋ด ์ด๋ฅผ ์ถ๊ฐํ ์๋ก์ด DataFrame์ ์ถ๋ ฅ์ผ๋ก ๋ด์ค๋ค. ๋ณดํต Feature Engineering์ ํ๋๋ฐ ์ฌ์ฉํ๋ค.
Imputer, StringIndexer, VectorAssembler
Learning Model


ML ์๊ณ ๋ฆฌ์ฆ์ ํด๋นํ๋ค. -> Fit ์ด ๋ฉ์ธ ํจ์์ด๋ค.
Training set DataFrame์ Input์ผ๋ก ๋ฐ์์ ML ๋ชจ๋ธ(Transformer)์ ๋ง๋ค์ด๋ธ๋ค.
LogisticRegression์ Estimator์ด๊ณ LogisticRegression.fit()์ ํธ์ถํ๋ฉด ML ๋ชจ๋ธ(Transformer)์ ๋ง๋ค์ด ๋ธ๋ค.
ML Pipeline ๋ Estimator์ด๋ค.
Estimator๋ ์ ์ฅ๊ณผ ์ฝ๊ธฐ ํจ์๋ฅผ ์ ๊ณตํ๋ค.
-> ์ฆ ๋ชจ๋ธ๊ณผ ML Pipeline์ ์ ์ฅํ๋ค๊ฐ ๋์ค์ ๋ค์ ์ฝ์ ์ ์๋ค.
-> save & load

Trasformer & Estimator์ ๊ณตํต API๋ก ๋ค์ํ ์ธ์๋ฅผ ์ ์ฉํด์ค๋ค.
๋ ์ข ๋ฅ์ ํ๋ผ๋ฏธํฐ๊ฐ ์กด์ฌํ๋ค.
ํ๋ผ๋ฏธํฐ ์
ํ๋ผ๋ฏธํฐ๋ fit(Estimator) or transform(Transformer)์ ์ธ์๋ก ์ง์ ๊ฐ๋ฅํ๋ค.
ํ๋ ์ด์์ Transformer์ Estimator๊ฐ ์ฐ๊ฒฐ๋ ๋ชจ๋ธ๋ง WorkFlow
ML Pipeline ๊ทธ์์ฒด๋ Estimator์ด๋ค.
ํ ๋ฒ Pipeline์ ๋ง๋ค๋ฉด ๋ฐ๋ณต ๋ชจ๋ธ๋น๋ฉ์ด ์ฌ์์ง๋ค.