Train data Set์ train&test๋ก ๋ถ๋ฆฌ

train data๋ก Model Building

test data๋ก ์์ธก๊ฐ ์์ง


Cross Validation(๊ต์ฐจ ๋ถ์ ํ ์คํธ)
K-Fold Test๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ ํ๋ค. ์ฐธ๊ณ
ํธ๋ ์ด๋ ์ ์ K๊ฐ์ ์๋ธ์ ์ผ๋ก ๋๋์ด ์ด K๋ฒ์ ํ๋ จ์ ๋ฐ๋ณตํ๋ค.
Tarin-Validation Split๋ณด๋ค ํจ์ฌ ๋ ์์ ์ ์ด๋ค.
-> ์ค๋ฒํผํ
๋ฌธ์ ๊ฐ ๊ฐ์ํ๋ค.

TrainValidationSplit : ํ๋์์ ๊ธฐ๋ฐ ํ ์คํธ๋ฅผ ์ํํ๋ค.
Cross Validation : ๊ต์ฐจ๋ถ์ (K-Fold)๊ธฐ๋ฐ ํ ์คํธ๋ฅผ ์ํํ๋ค.
์๋์ ๊ฐ์ ์ ๋ ฅ์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์ฅ ์ข์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ์์ค๋ค.
์ต์ข ์ ์ผ๋ก ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค ๋ชจ๋ธ์ ๋ฆฌํดํ๋ค.
๋ชจ๋ธ ์ ํ์ ์ ๋ ฅ
evaluator ํจ์๊ฐ ์ ๊ณต๋๋ค.
-> ์ธ์๋ก TestSet์ ๊ฒฐ๊ณผ๊ฐ ๋ค์ด์๋ DataFrame๊ณผ Parameter๋ฅผ ์ ๊ณตํด์ผํ๋ค.
ML ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ๋ผ ๋ค์ํ Evaluator๊ฐ ์ ๊ณต๋๋ค.
Prediction ์ปฌ๋ผ๊ณผ Label์ปฌ๋ผ์ด ๋ค์ด์๋ DataFrame
-> Logistic Regression์ ๊ฒฝ์ฐ Probability ์ปฌ๋ผ๋ ๋ค์ด์จ๋ค.
๋ณดํต ์ด DataFrame์ ML Model์ Transformํจ์๊ฐ ๋ฆฌํดํด์ค ๊ฐ์ด ๋๋ค.

