๋ณธ ๋ ผ๋ฌธ์ CatBoost๋ผ๋ ์๋ก์ด ๊ทธ๋๋์ธํธ ๋ถ์คํ ์ ์ฃผ์ ์๊ณ ๋ฆฌ์ฆ ๊ธฐ๋ฒ์ ์๊ฐํจ. CatBoost๋ ๋ค์ํ ๋ฐ์ดํฐ์ ์ ํ์ง ์ธก๋ฉด์์ ๋ค๋ฅธ ๊ณต๊ฐ์ ์ผ๋ก ๊ฐ๋ฅํ ๋ถ์คํ ์ ๋ฅ๊ฐํจ. CatBoost์์ ์๊ฐ๋ ๋ ๊ฐ์ง ์ค์ํ ์๊ณ ๋ฆฌ์ฆ: (1) Ordered Boosting - ์์ด ๊ธฐ๋ฐ, ํด๋์ ์๊ณ ๋ฆฌ์ฆ์ ๋์ (2) categorical feature๋ฅผ ์ฒ๋ฆฌํ๋๋ฐ ์์ด์ ํ์ ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์. ์ด๋ฌํ ๊ธฐ์ ์ ๋ชจ๋ ๊ทธ๋๋์ธํธ ๋ถ์คํ ์๊ณ ๋ฆฌ์ฆ์์ ๋ฐ์ํ๋ Prediction shift ๋ฌธ์ (ํ๊ฒ ๋์ถ๋ก ์ธํ)๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ์ฌ ์ ์๋์์.
๊ทธ๋๋์ธํธ ๋ถ์คํ : ์ค์ ์์ ์์ ๊ฐ๋ ฅํ ๊ธฐ๊ณ ํ์ต ๊ธฐ๋ฒ์ด์ง๋ง, ๊ธฐ์กด์ ๊ตฌํ์์๋ ํ ์ข ๋ฅ์ ํ๊ฒ์ ๋์ถํ๋ค๋ ๋ฌธ์ ๋ฅผ ๊ฒช๊ณ ์์.
=> ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์ด์ฉํ์ฌ ์์๋ธ ์์ธก๊ธฐ๋ฅผ ๊ตฌ์ฑํ๋ ๊ณผ์
๐ฑ CatBoost๋ XGBoost, LightGBM๊ณผ ๊ฐ์ ๊ธฐ์กด์ ์ต์ฒจ๋จ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์์.
์ฃผ์ด์ง ๋ฐ์ดํฐ์ ์์ feature ๋ฒกํฐ xk์ ์ด์ ํด๋นํ๋ ๋ชฉํ๊ฐ yk๋ก ์ด๋ฃจ์ด์ ธ ์์.
=> Catboost๋ ๊ธฐ๋ณธ ์์ธก์๋ก binary decision tree ํ์ฑํ์ฌ ๊ณต๊ฐ์ ๋ถํ ํ์ฌ ์์ธก ์ํํจ.
์ด์ฐ ์งํฉ์ ๋ฒ์ฃผ๋ฅผ ๊ฐ์ง๋ ๋ฒ์ฃผํ ํน์ฑ์ ์๋ก ๋น๊ตํ ์ ์์.
=> ํด๋น ํน์ฑ์ ๋ค๋ฃจ๋ ๊ธฐ๋ฒ ์ค ํ๋๋ ์-ํซ ์ธ์ฝ๋ฉ
๐ ๊ทธ๋ฌ๋ ๊ณ ์ฐจ์์ ํน์ฑ(ex. "์ฌ์ฉ์ ID" ํน์ฑ)์ ๊ฒฝ์ฐ, ์ด ๊ธฐ๋ฒ์ ๋๋ฌด ๋ง์ ์๋ก์ด ํน์ฑ์ ์์ฑํจ.
=> ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฒ์ฃผ๋ฅผ ์ ํ๋ ์์ ํด๋ฌ์คํฐ๋ก ๊ทธ๋ฃนํํ ๋ค์ ์-ํซ ์ธ์ฝ๋ฉ์ ์ ์ฉํ ์ ์์. (TS๋ฅผ ์ฌ์ฉํ์ฌ ๋ฒ์ฃผ๋ฅผ ๊ทธ๋ฃนํํ๋ ๊ฒ)
๋ฒ์ฃผํ ํน์ฑ i๋ฅผ ์ฒ๋ฆฌํ๋ ํจ๊ณผ์ ์ด๊ณ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ k๋ฒ์งธ ๋ฐ์ดํฐ์ ๋ฒ์ฃผ xik๋ฅผ ์ด๋ค TS์ xหik๋ก ๋์ฒดํ๋ ๊ฒ์. ์ผ๋ฐ์ ์ผ๋ก, ์ด๋ ํด๋น ๋ฒ์ฃผ์ ๋ํด ์กฐ๊ฑด๋ถ๋ก ์์๋๋ ํ๊ฒ y๋ฅผ ์ถ์ ํ๋ ๊ฒ๊ณผ ๋์ผํจ.

๐ ๋ฌธ์ : ํ๊ฒ ๋์ถ๋ก ์ธํด conditional shift๋ฅผ ์ ๋ฐํ ์ ์์. ์ด๋ฅผ ํผํ๊ธฐ ์ํด training set์์ ํด๋น ๋ฐ์ดํฐ๋ฅผ ์ ์ธํ ํ์ ์งํฉ์ ์ฌ์ฉํ์ฌ TS๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ด ์ ์๋๊ณ ์์.

๐ ๋ฌธ์ : ๋ชจ๋ธ ํ๋ จ๊ณผ TS ๊ณ์ฐ์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ ์์ ํฌ๊ฒ ์ค์ด๋ฏ๋ก, ๋ชจ๋ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ ๊ฒ์ ์ ํํ์ฌ ๋ณด์ํ ์ ์์.
๐ ๋ฌธ์ : ํ๊ฒ ๋์ถ์ ๋ง์ง ๋ชปํจ.
CatBoost๋ ๋ ํจ๊ณผ์ ์ธ ordered ์๋ฆฌ์ ๋ฐํ์ ๋์์
=> ์ฌ์ฉ๊ฐ๋ฅํ ์ด๋ ฅ์ ์ฌ์ฉํ์ฌ TS๋ฅผ ๊ฐ๊ฐ ๊ณ์ฐํ๊ณ , training example๋ก๋ Dk = {xj : ฯ(j) < ฯ(k)}๋ฅผ, testing ์ฉ์ผ๋ก๋ Dk = D๋ฅผ ์ ์ฉํจ.
โญ Ordered TS๋ P1 ์กฐ๊ฑด์ ๋ง์กฑํ๊ณ , P2 ์กฐ๊ฑด์ด์๋ ๋ชจ๋ ๋ฐ์ดํฐ์ ์ฌ์ฉ ๋ํ ๋ง์กฑ์ํฌ ์ ์๊ฒ ๋จ.

๊ทธ๋ ์ด๋์ธํธ ๋ถ์คํ ์์์ ์์ธก ๋ณํ ๋ฌธ์ - ์ด์ ์ ๋ค๋ฃจ์ด์ง์ง ์์์.
๐ ์ด๋ฌํ ์์ธก ๋ณํ๋ TS์ ๋ง์ฐฌ๊ฐ์ง๋ก ํน์ ์ ํ์ ํ๊ฒ ๋์ถ๋ก ์ธํด ๋ฐ์ํจ => ํด๊ฒฐ์ฑ ์ Ordered TS ๋ฐฉ๋ฒ๊ณผ ์ ์ฌํ Ordered boosting
Ordered boosting์ ์์ธก ๋ณํ ๋ฌธ์ ๋ฅผ ๊ฒช์ง ์์.
โญ๏ธ ํ์ง๋ง ์ด๋ฌํ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ถ๋ถ์ ์ค์ ์์ ์์๋ ์คํ ๋ทด๊ฐ - CatBoost์์๋ ์ด๋ฌํ ์๊ณ ๋ฆฌ์ฆ์ ๋ณํ์ ๊ตฌํํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐ
TS ๊ณ์ฐ ๋ฐ Ordered boosting์ ๋ํ training example ์์ ์์ด ฯcat ๋ฐ ฯboost๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ์ ์ํจ.
CatBoost์๋ ๋ ๊ฐ์ง ๋ถ์คํ ๋ชจ๋์ธ Ordered์ Plain ์กด์ฌ

โญ๏ธ ์๊ณ ๋ฆฌ์ฆ ์ค๋ช
+) ํน์ ์์ด์์ ์งง์ ๊ฐ์ง ์์ ์ ๊ฒฝ์ฐ, ordered boosting์์ ์ฌ์ฉ๋๋ TS ๋ฐ ์์ธก๊ฐ => ๋ชจ๋ ๊ณ ๋ถ์ฐ

๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒ์ผ๋ก ์๋ ค์ง XGBoost์ LightGBM๊ณผ์ ์๊ณ ๋ฆฌ์ฆ์ ๋น๊ต

๐ CatBoost๊ฐ ๋ชจ๋ ๊ณ ๋ ค๋ ๋ฐ์ดํฐ์ ์์ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์.
+) ์ผ๋ถ ๋ฐ์ดํฐ์ ์ ์ ์ธํ๊ณ ๋ชจ๋ ๊ฐ์ ์ฌํญ์ ์ฐ๊ฒฐ๋ ์ผ๋ฐฉํฅ t-๊ฒ์ ์ผ๋ก ์ธก์ ๋ p-๊ฐ์ด โช 0.01๋ก ํต๊ณ์ ์ผ๋ก ์ ์ํจ๋ ํ์ธํจ.

๋ณธ ๋ ผ๋ฌธ์์๋ ํ์ฌ ์๋ Gradient boosting์ ๋ชจ๋ ์กด์ฌํ๋ prediction shift์ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ์์. Ordered TS๋ฅผ ์ฌ์ฉํ๋ Ordered Boosting์ ์ ์ํ์ฌ ํด๋น ๋ฌธ์ ๋ฅผ ํด๊ฒฐํจ.
๐ต ๋ ผ์ํด๋ณด๊ณ ์ถ์ ์ : ํด๋น ๋ ผ๋ฌธ์ 19๋ ๋์ ๋ฐํ๋์๋๋ฐ, ์ง๊ธ๋ ๋ฅ๋ฌ๋์ด ์๋ ๊ธฐ๊ณํ์ต ์์ญ์์ ์ฐ๊ตฌ๊ฐ ํ๋ฐํ๊ฒ ์งํ๋๊ณ ์๋์ง ๊ถ๊ธํด์ก๋ค.