XGBoost์ ๊ฐ์ ํธ๋ฆฌ ์์๋ธ ๋ชจ๋ธ์ ํ ํ์ ๋ฐ์ดํฐ์ ๋ํ ๋ถ๋ฅ ๋ฐ ํ๊ท ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋๋ฐ ์์ด ์ถ์ฒ๋์ง๋ง, ์ต๊ทผ ๋ช๋ช ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ด ํน์ ์ํฉ์์๋ ๋ฅ๊ฐํ๋ค๊ณ ์ฃผ์ฅ/์ ์๋์ด์์. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ์๋ก์ด ๋ฅ๋ฌ๋ ๋ชจ๋ธ๊ณผ XGBoost๋ฅผ ๋ค์ํ ๋ฐ์ดํฐ์ ์์ ์๊ฒฉํ๊ฒ ๋น๊ตํ์ฌ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ด ํ ํ์์ ๋ฐ์ดํฐ์ ์ ํฉํ ์ ํ์ธ์ง๋ฅผ ํ๊ตฌํจ.
๐ ์ฑ๋ฅ ๋น๊ต ์ด์ธ์๋ ํ๋๊ณผ ๊ณ์ฐ ์๊ตฌ์ฌํญ์ ๊ณ ๋ คํ ๊ฒฐ๊ณผ, XGBoost๋ ์ ์๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค๋ณด๋ค ๋๋ถ๋ถ์ ๋ฐ์ดํฐ์ ์์ ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๊ณ , ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ด ์ ์๋ ๋ ผ๋ฌธ์์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์์๋ ๋ง์ฐฌ๊ฐ์ง์์. ๋ํ XGBoost๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ณด๋ค ํจ์ฌ ๋ ์ ์ ํ๋์ด ํ์ํ์ผ๋ฉฐ, ๋ฅ๋ฌ๋ + XGBoost๋ฅผ ์ฌ์ฉํ์์ ๋ ์ฑ๋ฅ์ด ํฅ์๋๋ค๋ ์ ์ ํ์ธํจ.
๋ฅ๋ฌ๋์ ์ฌ๋ฌ ๋๋ฉ์ธ์์ ํฐ ์ฑ๊ณต์ ๊ฑฐ๋์์ง๋ง, ํ์ค ์ธ๊ณ์์ ๊ฐ์ฅ ๋ง์ด ๋ค๋ฃจ์ด์ง๋ ์ ํ์ธ ํ ํํ(Tabular Data) ๋ฐ์ดํฐ์์๋ ์ฌ์ ํ ์ ํต์ ์ธ ๋จธ์ ๋ฌ๋ ๋ฐฉ๋ฒ - ํนํ Gradient Boost(GBDT)์ ๊ฐ์ ๋ชจ๋ธ์ด ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์.
๐จ ์ต๊ทผ ๋ช ๋ ๋์์๋ ํ ํํ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ ์ ์๋์์ง๋ง, ํด๋น ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ ๋ ผ๋ฌธ๋ค์ด ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ ์ด์ฉํ์๊ธฐ ๋๋ฌธ์ ๋น๊ต๊ฐ ์ด๋ ต๊ณ , ์ต์ ํ ์์ค ๋ํ ๋ค๋ฅด๋ค๋ ๋ฌธ์ ๊ฐ ์์์.
๐ก ๋ณธ ๋ ผ๋ฌธ์์๋ ์ ๋ง๋ก ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค์ด GBDT๋ฅผ ๋ฅ๊ฐํ๋์ง ํ๊ตฌํจ. ์ต๊ทผ์ ์ ์๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๊ณผ XGBoost๋ฅผ ๋์ผํ ํ๋ ํ๋กํ ์ฝ๊ณผ ๋์ผํ ๋ฐ์ดํฐ์ ๋ฐํ์์ ํ๊ฐํ์ฌ, ๋ฅ๋ฌ๋์ด ๋ ผ๋ฌธ์์ ์ ์ํ ๋ฐ์ดํฐ์ ์ด์ธ์ ๋ฐ์ดํฐ์์๋ ์ฑ๋ฅ์ด ๋จ์ด์ง์ ๋ณด์ฌ์ค.
โก๏ธ ๋ฐ๋ฉด XGBoost๋ ๋๋ถ๋ถ์ ๋ฐ์ดํฐ์ ์์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ฉฐ, ํ๋ ๊ณผ์ ๋ ๋ ์งง์ผ๋ฉฐ ๋ฅ๋ฌ๋๊ณผ ์์๋ธํ ๊ฒฝ์ฐ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์.
โก๏ธ ์๋ก์ด ๋ชจ๋ธ์ ์ถ๊ฐํ ๋ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ด์ฉํ์ฌ Loss๋ฅผ ์ต์ํ
โ ์ต๊ทผ ์ฐ๊ตฌ์์๋ ํ ํ์ ๋ฐ์ดํฐ์ ๋ฅ๋ฌ๋ ์ ์ ์ฉํ์ฌ ์๋ก์ด ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ฅผ ์ ์ํจ.
1) Differntiable trees: ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ๋ฏธ๋ถ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค์ด์ ์ต์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์ ๊ทผ๋ฒ
2) Attention-based models: ์ํ ๋ด ํน์ง ๋๋ ์ํ ๊ฐ ์ํธ์์ฉ์ ํตํด ์ดํ ์ ๋ชจ๋์ ์ฌ์ฉํ๋ ์ ๊ทผ๋ฒ
๐ก ๋ณธ ๋ ผ๋ฌธ์์ ํ๊ฐํ๋ 4๊ฐ์ง ์ฃผ์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ
1) TabNet: Sparse learned mask์ attention์ ์ด์ฉํ ์ธ์ฝ๋๋ก feature๋ฅผ ์ ํํ๋ ๋ชจ๋ธ. ์ฅ์ ์ ์ด๋ค feature๋ฅผ ์ ํํจ์ ์์ด์ all-or-nothing์ผ ํ์๊ฐ ์๋ค๋ ๊ฒ์.
2) NODE: ๋ฏธ๋ถ์ด ๊ฐ๋ฅํ Oblivious Decision Tree๋ฅผ ์ด์ฉํ์ฌ feautre๋ฅผ ๋ฐฐ์ฐ๋ ๋ชจ๋ธ. ํ๋์ ๋ ๋ฒจ์ ํ๋์ feauture๋ฅผ ์ ํํ์ฌ ๊ท ํ์กํ ์์๋ธ์ ๊ตฌ์ฑํจ.
3) DNF-Net: ๋ถ์ธ ๊ณต์์ soft ๋ฒ์ ์ผ๋ก DNNF ๋ธ๋ก ํ์ฑ ๋ชจ๋ธ.
4) 1D-CNN: 1D-์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ก ์บ๊ธ ๋ํ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ธ ๋ชจ๋ธ.
์์๋ธ ํ์ต์ ์ฌ๋ฌ ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํค๊ณ ๋ถ์ฐ์ ์ค์ด๋ ๋ฐฉ๋ฒ์. ๋ณธ ์ฐ๊ตฌ์์๋ TabNet, NODE, DNF-Net, 1D-CNN, XGBoost๋ฅผ ํฌํจํ ์์๋ธ์ ์ฌ์ฉํจ.
1) ๊ท ์ผ ๊ฐ์ค์น ํผํฉ

2) ๊ฐ์ค ํ๊ท


โก๏ธ Optimization Process
โก๏ธ Metrics and Evaluation
โก๏ธ Statistical significance test
โก๏ธ Training

๐ก ์์ ํ์์ ๊ฐ ๋ฐ์ดํฐ์ ์ ๋ํ ๋ชจ๋ธ์ ํ๊ท ์ฑ๋ฅ๊ณผ ํ์ค ์ค์ฐจ๋ฅผ ๋ํ๋.
โก๏ธ Friedman ๊ฒ์ ์ ํตํด 95% ์ ์์์ค์ผ๋ก ์ ์๋ฏธํ ์ฐจ์ด๋ฅผ ํ์ธํจ.
๐ ์ฃผ๋ชฉํ ๋งํ ๊ฒฐ๊ณผ๋ค

โ ๊ฐ์ฅ ์ข์ ์ ํ ์ ๊ทผ๋ฒ: ๊ฒ์ฆ๋ ์์ค์ ๊ธฐ๋ฐ์ผ๋ก ์์ธก์ ํ๊ท ํ ํ๋ ๊ฒ!

โ ํ์ดํผํ๋ฆฌ๋ฏธํฐ ์ต์ ํ ๊ณผ์ ์ ๋ฐ๋ณต ํ์์ ๋ฐ๋ฅธ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ํ๋ธ ๊ฒ. XGBoost๊ฐ ๋ฅ๋ฌ๋๋ณด๋ค ๋ ๋น ๋ฅด๊ฒ ์ข์ ์ฑ๋ฅ์ ๋๋ฌํจ์ ๊ด์ฐฐํจ.
๋ณธ ์ฐ๊ตฌ์์๋ ์ต๊ทผ ์ ์๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค์ด ํ ์ด๋ธํ ๋ฐ์ดํฐ์ ์์ ์ด๋ป๊ฒ ์ฑ๋ฅ์ ๋ฐํํ๋์ง ์กฐ์ฌํจ. ๋ถ์ ๊ฒฐ๊ณผ, ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์๋ ผ๋ฌธ์ ํฌํจ๋์ง ์์ ๋ฐ์ดํฐ์ ์์๋ ๋ ์ฝํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ XGBoost๋ณด๋ค๋ ์ฑ๋ฅ์ด ๋จ์ด์ก์.
๋ํ ์ค์ ์์ฉ์์ ์ค์ํ ์ฑ๋ฅ, ๊ณ์ฐ ์ถ๋ก ๋น์ฉ, ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ ์๊ฐ ๊ฐ์ ํธ๋ ์ด๋์คํ๋ ํ๊ตฌํจ. ๋ถ์ ๊ฒฐ๊ณผ ๋ณด๊ณ ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋นํ์ ์ผ๋ก ๋ฐ๋ผ๋ด์ผํจ์ ์ ์ ์์์. ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์์ ์ฑ๋ฅ์ ๊ณต์ ํ๊ฒ ๋น๊ตํ์์ ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค์ด ๋ ์ฝํ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์. ๊ทธ๋ฌ๋ XGBoost์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋ถ์ธ๋ค๋ฉด ์ต๊ณ ์ฑ๋ฅ์ ๋ณด์์.
๐ ํด๋น ๋ ผ๋ฌธ์ ๋ณธ 4๊ฐ์ง ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๋ ผ๋ฌธ ์ ์ ์๋ค์ด ๋ฐ๋ฐ ๋ ผ๋ฌธ์ ๋ด์ง๋ ์์์์ง ๊ถ๊ธํ๋ค.