๊ฒฐ์ ํธ๋ฆฌ๋ ์/์๋์ค๋ก ๋ตํ ์ ์๋ ์ด๋ค ์ง๋ฌธ๋ค์ด ์๊ณ , ๊ทธ ์ง๋ฌธ๋ค์ ๋ต์ ๋ฐ๋ผ๊ฐ๋ฉด์ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
์๋ฅผ ๋ค์ด ๊ตํต์ฌ๊ณ ๊ฐ ๋ฌ์ ๋, ์ด์ ์์ ์์กด ์ฌ๋ถ๋ฅผ ์์ธกํ๊ณ ์ถ๋ค๊ณ ํ์. ๊ทธ๋ฌ๋ฉด ๊ฒฐ์ ํธ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ ์ ์๋ค.

์ง๋ฌธ๋ค์ ๋ต์ ํด๊ฐ๋ฉด์ ํ ๋จ๊ณ์ ๋ด๋ ค๊ฐ ์ ์๊ณ , ์์์๋ถํฐ ์ง๋ฌธ๋ค์ ๊ณ์ ๋ต์ ํ๋ฉฐ ๋ด๋ ค๊ฐ๋ค๊ฐ ๋ณด๋ผ์ ๋ฐ์ค๋ค์ ๋์ฐฉ์ ํ๋ฉด ํด๋น ๋ถ๋ฅ ๊ฐ์ ๋ฆฌํดํ๋ค.
๋ํ ๊ฒฐ์ ํธ๋ฆฌ๋ ํ ์์ฑ์ ๋ฑ ํ ๋ฒ๋ง ์ฌ์ฉํด์ผ ๋๋ ๊ฑด ์๋๋ค. ์๋ฅผ ๋ค์ด '์ฃผํ ์๋'๋ผ๋ ์์ฑ์ด ์๋ค๊ณ ํ ๋ ์๋์ฒ๋ผ

์๋๊ฐ 100์ ๋์๋์ง, 60์ ๋์๋์ง ์ ๋์๋์ง ๋ฑ๋ฑ ํ๋์ ์์ฑ์ผ๋ก ์ฌ๋ฌ ๊ฐ์ ์ง๋ฌธ์ ๋ง๋ค ์๋ ์๋ค.
์ด์ฒ๋ผ ํ๋์ ์์ ์ง์ ์์ ํผ์ ธ๋๊ฐ๋ ๋ชจ์ต์ด ๋ง์น ๋๋ฌด์ ๋น์ทํ๊ณ , ํ ๋จ๊ณ ๋ด๋ ค๊ฐ ๋๋ง๋ค ์ผ์ชฝ์ผ๋ก ๊ฐ์ง ์ค๋ฅธ์ชฝ์ผ๋ก ๊ฐ์ง ์ ํํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๊ธฐ ๋๋ฌธ์ ์ด๋ฆ์ด ๊ฒฐ์ ํธ๋ฆฌ์ธ ๊ฒ์ด๋ค.
๊ฒฐ์ ํธ๋ฆฌ ๊ด๋ จ ์ฉ์ด๋ ์๋์ ๊ฐ๋ค.

์ผ๋จ ๋ฐ์ค ํ๋ํ๋๋ฅผ '๋ ธ๋'๋ผ๊ณ ํ๋๋ฐ, ๊ฐ์ฅ ์์ ์๋ ์ง๋ฌธ ๋ ธ๋๋ ๋๋ฌด์ ๋ฟ๋ฆฌ๋ผ๊ณ ํด์ root ๋ ธ๋๋ผ๊ณ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ํธ๋ฆฌ์ ๊ฐ์ฅ ๋์ ์๋ ๋ ธ๋๋ค์ leaf ๋ ธ๋๋ผ๊ณ ํ๋ค. leaf ๋ ธ๋๋ ํญ์ ์ฌ๋ง/์์กด๊ณผ ๊ฐ์ ํน์ ์์ธก๊ฐ์ ๊ฐ๊ณ ์๊ณ , ๋๋จธ์ง ๋ ธ๋๋ค์ ์/์๋์ค๋ก ๋ตํ ์ ์๋ ์ง๋ฌธ์ ๊ฐ๊ณ ์๋ค.
์ ํ ํ๊ท ์๊ณ ๋ฆฌ์ฆ์ ๋ชฉ์ ์ด ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ฅ ์ ๋ํ๋ผ ์ ์๋ ์ผ์ฐจ์์ ์ฐพ๋ ๊ฑฐ์๋ค๋ฉด, ๊ฒฐ์ ํธ๋ฆฌ์ ๋ชฉ์ ์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ง์ ๋ถ๋ฅํด๋ณด๋ฉด์, ๋ฐ์ดํฐ๋ค์ ๊ฐ์ฅ ์ ๋ถ๋ฅํ ์ ์๋ ๋ ธ๋(๊ธฐ์ค)๋ค์ ์ฐพ์๋ด๋ ๊ฒ์ด๋ค. ์ฆ, ๊ฒฐ๋ก ์ ์ผ๋ก ์ต์ ์ ํธ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค.
์ต์ ์ ํธ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ์ฐพ๊ธฐ ์ํด์ ์ด๋ค ์์น์ ๋ฌด์จ ๋ ธ๋๋ค์ด ์์ด์ผ ์ข๊ณ ๋์์ง ์ฆ, ์ข๊ณ ๋์จ์ ํ๋จ ๊ธฐ์ค์ด ์์ด์ผ ํ๋๋ฐ ์ ํ ํ๊ท์์๋ ์ด๊ฑธ ์์ค ํจ์๋ฅผ ํตํด์ ํ๋ค๋ฉด ๊ฒฐ์ ํธ๋ฆฌ์์๋ ์ด๊ฑธ ์ง๋ ๋ถ์๋, ์์ด๋ก๋ Gini Impurity๋ฅผ ํตํด์ ํ๋ค. (์คํธ๋กํผ(Entropy)๋ก๋ ํ ์ ์๋ค.)
์ง๋ ๋ถ์๋๋ ๋ฐ์ดํฐ ์ ์์ ์๋ก ๋ฐ์ดํฐ๋ค์ด ์ผ๋ง๋ ์์ฌ์๋์ง๋ฅผ ๋ํ๋ธ๋ค. ์์์ผ๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. (๋ ํด๋์ค์ ๊ฐ์๋ฅผ ์๋ฏธํจ.)
์๋ฅผ ๋ค์ด ๋ ๊ฐ ๋ฐ์ดํฐ ์ 100๊ฐ์์ ๋ ๊ฐ์ธ ๋ฐ์ดํฐ๋ 70๊ฐ, ์ผ๋ฐ ๊ฐ๊ธฐ์ธ ๋ฐ์ดํฐ๋ 30๊ฐ๋ผ๊ณ ํ์. ๊ทธ๋ ๋ค๋ฉด ์ง๋ ๋ถ์๋๋
๊ฐ ๋ ๊ฒ์ด๋ค.
๋ฐ์ดํฐ ์
์์ ๋
๊ฐ์ธ ๋ฐ์ดํฐ๋ง 100๊ฐ๋ผ๋ฉด ๋ฐ์ดํฐ๋ค์ด ์์ฌ์์ง ์์ ๊ฒ์ด๋ ์ง๋ ๋ถ์๋๋ 0์ด๋ค. ์ง๋ ๋ถ์๋๊ฐ ๋ฎ๋ค๋ ๊ฒ์ ๋ฐ์ดํฐ๋ค์ด ํ๋์ ๋ถ๋ฅ์ ์ง์ค๋ผ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
๋ฐ๋๋ก ๋ฐ์ดํฐ๊ฐ ์ ํํ๊ฒ 50๊ฐ์ฉ ๋ฐ๋ฐ ์์ฌ์๋ค๋ฉด ์ง๋ ๋ถ์๋๋ 0.5๊ฐ ๋ ๊ฒ์ด๋ค. ์ด์ง ๋ถ๋ฅ ๊ธฐ์ค์ผ๋ก ์์ฌ์๋ ๋ฐ์ดํฐ ๋น์จ์ด 50:50์ผ ๋ ์ง๋ ๋ถ์๋๋ ์ต๋๊ฐ ๋๋ค.
์ ๋ฆฌํ์๋ฉด ์ง๋ ๋ถ์๋๊ฐ ์์์๋ก ๋ฐ์ดํฐ ์ ์ด ์์ํ๊ณ , ํด์๋ก ๋ฐ์ดํฐ ์ ์ด ๋ถ์ํ๋ค.
๊ทธ๋ฌ๋ฉด ์ด์ ์ง๋ ๋ถ์๋๋ฅผ ์ด์ฉํด์ ๊ฒฐ์ ํธ๋ฆฌ์ ๋ ธ๋๋ฅผ ์ ํด๋ณด์.
์ผ๋จ ๋ค์๊ณผ ๊ฐ์ ๋
๊ฐ ํ์ ๋ฐ์ดํฐ ์
์ด ์๋ค๊ณ ๊ฐ์ ํ์.

๋ฐ์ดํฐ ์
์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ ๊ณ ์ด, ๊ธฐ์นจ, ๋ชธ์ด์ด ์๋์ง ์๋์ง๋ฅผ ์์ฑ์ผ๋ก, ํ์๊ฐ ๋
๊ฐ์ธ์ง ์๋์ง๋ฅผ ๋ชฉํ ๋ณ์๋ก ๊ฐ๋๋ค.
๊ทธ๋ฆฌ๊ณ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ง์ ํ ๋ฒ ๋ถ๋ฅํด๋ณด๋ฉด์ ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ๋ง๋ค์ด๋ณด๊ณ , ์ด ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ์จ์ ๋ชธ ์ํ๋ก ๋
๊ฐ์ด ์๋์ง ์๋์ง๋ฅผ ์์ธกํ๋ ค๊ณ ํ๋ค.
์ผ๋จ ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ๋ง๋ค ๋ ์ฒ์์๋ root ๋
ธ๋๋ฅผ ์ ํด์ผ ํ๋ค. root ๋
ธ๋๊ฐ ๋ ์ ์๋ ๊ฒ์ ๋ฌด์์ด ์์๊น?

Case 1) ๋ถ๋ฅ ๋
ธ๋๋ฅผ ๋ฐ๋ก ๋ง๋ ๋ค.
์ง๋ฌธ ๋
ธ๋๋ฅผ ๋ง๋ค์ง ์๊ณ ๋ฐ๋ก ๋ถ๋ฅ ๋
ธ๋๋ฅผ ๋ง๋ค ์ ์๋ค. ์๋ฅผ ๋ค์ด ์ฒ์๋ถํฐ ๊ทธ๋ฅ ๋ชจ๋ ๋ฐ์ดํฐ๋ ๋
๊ฐ์ด๋ค(or ์ผ๋ฐ ๊ฐ๊ธฐ๋ค)๋ผ๊ณ ํ ์ ์๋ค.
Case 2) ์ง๋ฌธ ๋
ธ๋๋ฅผ ๋ง๋ ๋ค
โ๊ณ ์ด์ด ์๋์?โ, โ๊ธฐ์นจ์ด ์๋์?โ, โ๋ชธ์ด์ด ์๋์?โ ์ด ์ธ ์ง๋ฌธ ์ค ํ๋๋ฅผ ๋
ธ๋๋ก ๋ง๋ค์ด ๋ถ๋ฅํด๋ณผ ์ ์๋ค.
์ด ์ ํ์ง๋ค ์ค ์ด๋ค ๊ฑธ ๊ณจ๋ผ์ผ ๋ ๊น? ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ๋ง๋ค ๋๋ ํญ์ ํ์ฌ ์ํฉ์์ ๊ฐ์ฅ โ์ข์โ ๋ ธ๋๋ฅผ ๊ณจ๋ผ์ผ ํ๋ค. ์ด๋ โ์ข๋ค/์ ์ข๋คโ์ ๊ธฐ์ค์ ์์์ ๋ฐฐ์ด ์ง๋ ๋ถ์๋๋ฅผ ํ์ฉํ๋ค.
์ผ๋จ ๋ถ๋ฅ ๋ ธ๋๋ฅผ ๋ฐ๋ก ๋ง๋๋ ๊ฒฝ์ฐ์ ๋ํด์ ์ดํด๋ณด์.
root ๋
ธ๋๋ฅผ ๋ถ๋ฅ ๋
ธ๋๋ก ๋ง๋ ๋ค๊ณ ๊ฐ์ ํ์.
์ผ๋จ ํ์ต์ ์ฌ์ฉํ๋ ๋ฐ์ดํฐ ์๋ 90๊ฐ์ธ๋ฐ, root ๋
ธ๋๋ ๊ฐ์ฅ ์์ ์๋ ๋
ธ๋๋๊น ๋ชจ๋ ๋ฐ์ดํฐ๊ฐ ๊ฑฐ์ณ์ผ ๋๋ ๋
ธ๋์ด๋ฏ๋ก ์ด 90๊ฐ๋ฅผ ๋ชจ๋ ์ฌ์ฉํ๋ค.
ํ์ต ๋ฐ์ดํฐ๋ ์๋์ ๊ฐ์ด ๋
๊ฐ์ธ ์ฌ๋์ด 50๋ช
, ์๋ ์ฌ๋์ด 40๋ช
์ด ์๋ค.

๋ถ๋ฅ ๋ ธ๋๋ฅผ ํ์ ๋ ์ต๋ํ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ๋ง๊ฒ ๋ถ๋ฅํด์ผ ์ข์ ๊ฒ์ด๋ค. ๊ทธ ๋ง์ ์ฌ๊ธฐ ์๋ ๋ชจ๋ ๋ฐ์ดํฐ 90๊ฐ๋ฅผ ํ๋์ ๋ถ๋ฅ(๋ ๊ฐ or ์ผ๋ฐ ๊ฐ๊ธฐ)๋ก ์์ธก์ ํ์ ๋, ์ต๋ํ ๋ง์ด ๋ง์์ผ ๋๋ค๋ ๊ฒ์ด๋ค.
์ผ๋จ ๋ถ๋ฅ ๋ ธ๋๋ฅผ ๋ง๋ค ๋๋ ํญ์ ๋ฐ์ดํฐ ์ ์์ ๊ฐ์ฅ ๋ง์ ๋ถ๋ฅ๋ก ๋ง๋ ๋ค. ์ง๊ธ ๊ฐ์ ๊ฒฝ์ฐ๋ ๋ ๊ฐ ๋ฐ์ดํฐ๊ฐ ์ผ๋ฐ ๊ฐ๊ธฐ ๋ฐ์ดํฐ๋ณด๋ค ๋ง๊ธฐ ๋๋ฌธ์ ๋ ๊ฐ ๋ ธ๋๋ฅผ ๋ถ๋ฅ ๋ ธ๋๋ก ๊ณ ๋ฅธ๋ค.
๊ทธ๋ผ ์ด ๋
๊ฐ ๋
ธ๋๋ ์ ํํ ์ผ๋ง๋ ์ข์ ๊ฑธ๊น?

์ข์ ๋ ๊ฐ ๋ ธ๋๋ ์ต๋ํ ๋ง์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ง์ถ ์ ์์ด์ผ ํ๋๋ฐ, ๊ทธ๋ฌ๋ ค๋ฉด ์ด ๋ฐ์ดํฐ ์ ์์ ์ฒ์๋ถํฐ ๋ ๊ฐ ๋ฐ์ดํฐ๊ฐ ๋ง์์ผํ๋ค. ๋ค๋ฅด๊ฒ ํํํ๋ฉด ๋ถ์๋๊ฐ ๋ฎ์, ์์ํ ๋ฐ์ดํฐ ์ ์ด์ด์ผ ํ๋ค.
๊ทผ๋ฐ ๋ ๊ฐ ๋ ธ๋๋ฅผ ๋ถ๋ฅ ๋ ธ๋๋ก ์ค์ ํ์ ๋ ๋ถ์๋๋ฅผ ๊ณ์ฐํด๋ณด๋ฉด 0.494๋ก ๊ฝค ๋์ ํธ์ด๋ค.
๋ฐ์ดํฐ๊ฐ ๋ถ์ํ ๋ ์ฒ์๋ถํฐ ๋ถ๋ฅ ๋ ธ๋๋ก ๋ง๋ค๋ฉด ์ฑ๋ฅ์ด ๋ณ๋ก ์ ์ข๋ค๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ์ก์์ผ๋ก ๋ด๋ ์ ์ฒด ๋ฐ์ดํฐ 90๊ฐ ์ค์ 50๊ฐ๋ ๋ง๊ณ 40๊ฐ๋ ํ๋ ค๋ฒ๋ฆฌ๋ ์ ์ด๋ค.
๋ฐ๋ผ์ ๋ถ๋ฅ ๋ ธ๋๋ฅผ root ๋ ธ๋๋ก ํ ๋๋ ๋ฐ์ดํฐ๊ฐ ์ฒ์๋ถํฐ ์ ๋ถ๋ฅ๋์ด ์์ ๋ ํจ๊ณผ์ ์ด๋ค.
์ฌ๋ฌ ์ง๋ฌธ ๋ ธ๋ ์ค โ๊ณ ์ด์ด ์๋์?โ๋ก ๋ ธ๋๋ก ๋ง๋๋ ๊ฒฝ์ฐ๋ฅผ ์๊ฐํด๋ณด์. ๊ฒฐ์ ํธ๋ฆฌ์์ ์ข์ ์ง๋ฌธ์ ๋ฐ์ดํฐ๋ฅผ ์ ๋๋๋ ์ง๋ฌธ์ด๋ค.
๋ง์ฝ โ๊ณ ์ด์ด ์๋์?โ๋ก ๋ฐ์ดํฐ๋ฅผ ๋๋ด์ ๋, ์ ํํ๊ฒ ๋
๊ฐ๊ณผ ์ผ๋ฐ ๊ฐ๊ธฐ๋ฅผ ๋ถ๋ฅํ๋ค๋ฉด ์ด ์ง๋ฌธ ๋
ธ๋๋ ๋ฐ์ดํฐ๋ฅผ ์์ฒญ ์ ๋๋๋ ์ข์ ๋
ธ๋์ด๋ค. ๊ทธ๋ฆผ์ผ๋ก ๋ณด๋ฉด ์๋์ ๊ฐ๋ค.

๊ทผ๋ฐ ๋ง์ฝ ์๋ ๊ทธ๋ฆผ์ฒ๋ผ ๋๋ ๋ฐ์ดํฐ์ ๋ค์ ๋
๊ฐ๊ณผ ์ผ๋ฐ ๊ฐ๊ธฐ๊ฐ ๋ง์ด ์์ฌ ์๋ค๋ฉด ๊ทธ ์ง๋ฌธ ๋
ธ๋๋ ๋ฐ์ดํฐ๋ฅผ ์ ๋ถ๋ฅํ์ง ๋ชปํ๋ ๊ฒ์ด๋ฏ๋ก ์ข์ง ์์ ๋
ธ๋์ด๋ค.

์ ๋ฆฌํ์๋ฉด ์ข์ ์ง๋ฌธ ๋ ธ๋๋ ์์ฌ์๋ ๋ฐ์ดํฐ๋ฅผ ์ ๋๋ ์ ์ ์ ๋ ๋ถ๋ฅํ๊ธฐ ์ฝ๊ฒ ๋ง๋ค์ด ์ฃผ๊ณ , ๋ ๋๋ ๋ฐ์ดํฐ ์ ๋ค์ ์ง๋ ๋ถ์๋๊ฐ ๋ฎ์์๋ก ์ข์ ์ง๋ฌธ ๋ ธ๋์ด๋ค.
๊ทธ๋ฌ๋ฉด ์ง๋ฌธ ๋
ธ๋์ ์ฑ๋ฅ์ ์์น์ ์ผ๋ก ํ๊ฐํด๋ณด์.
๋จผ์ โ๊ณ ์ด์ด ์๋์?โ๋ก ๋ฐ์ดํฐ๋ฅผ ๋๋ด์ ๋, ๋ค์๊ณผ ๊ฐ์ด ๋ถ๋ฅ๊ฐ ๋์๋ค๊ณ ๊ฐ์ ํ์.

๊ณ ์ด์ด ์๋ ์ฌ๋๋ค๋ก ๋ถ๋ฅ๋ ๋ฐ์ดํฐ์ 50๋ช ์ค์์ ๋ ๊ฐ์ธ ์ฌ๋์ 40๋ช , ์ผ๋ฐ ๊ฐ๊ธฐ์ธ ์ฌ๋์ 10๋ช ์ด๋ค. ์ง๋ ๋ถ์๋๋ฅผ ๊ณ์ฐํด๋ณด๋ฉด 0.32๊ฐ ๋์จ๋ค.
๊ณ ์ด์ด ์๋ ์ฌ๋๋ค๋ก ๋ถ๋ฅ๋ ๋ฐ์ดํฐ์ 40๋ช ์ค์์ ๋ ๊ฐ์ธ ์ฌ๋์ 10๋ช , ์ผ๋ฐ ๊ฐ๊ธฐ์ธ ์ฌ๋์ 30๋ช ์ด๋ค. ์ง๋ ๋ถ์๋๋ฅผ ๊ณ์ฐํด๋ณด๋ฉด 0.375๊ฐ ๋์จ๋ค.
๊ฐ๊ฐ ์ง๋ ๋ถ์๋๋ฅผ ๊ณ์ฐํ์ผ๋ฏ๋ก ์ด๊ฑธ ํ๊ท ๋ด์ด ๊ณ์ฐํ๋ฉด โ๊ณ ์ด์ด ์๋์?โ๋ผ๋ ์ง๋ฌธ ๋ ธ๋์ ์ฑ๋ฅ์ ์์นํ ํ ์ ์๋ค.
ํ๊ท ์ ๋ผ ๋ ๊ฐ ์ง๋ ๋ถ์๋์ ํด๋น ๋ฐ์ดํฐ์ ํฌ๊ธฐ๋งํผ์ ๊ฐ์ค์น๋ก ์ค ๋ค ์ด๋ค์ ๋ชจ๋ ๋ํ๊ณ , ๊ทธ๊ฑธ ์ ์ฒด ๋ฐ์ดํฐ ์
์ผ๋ก ๋๋๋ฉด ๋๋ค.
์ด๋ ๊ฒ ํด์ ๊ณ์ฐํ โ๊ณ ์ด์ด ์๋์?โ ์ง๋ฌธ์ผ๋ก ๋๋ ์ง ๋ฐ์ดํฐ ์
๋ค์ ํ๊ท ์ง๋ ๋ถ์๋๋ ์ฝ 0.344๊ฐ ๋๋ค. ์ฆ, ์ด ์ง๋ฌธ์ด ์ผ๋ง๋ ๋ฐ์ดํฐ๋ฅผ ์ ๋๋๋์ง๋ฅผ ์์น๋ฅผ ๋ํ๋ด๋ฉด 0.344๋ผ๋ ๊ฒ์ด๋ค. ์ด ํ๊ท ์ง๋ ๋ถ์๋๋ ๋ฎ์ ์๋ก ์ข๊ณ , ๋์ ์๋ก ์ข์ง ์๋ค.
์ด ๊ณผ์ ์ ํ๋์ ๊ทธ๋ฆผ ์์ ๋ด์ผ๋ฉด ์๋์ ๊ฐ๋ค.

์์์๋ ๋ถ๋ฅ ๋
ธ๋๋ฅผ ์ฌ์ฉํ์ ๋์ ์ง๋ฌธ ๋
ธ๋๋ฅผ ์ฌ์ฉํ์ ๋์ ์ง๋ ๋ถ์๋๋ฅผ ์ธก์ ํ์๋ค. ์ด์ root ๋
ธ๋๋ฅผ ๊ณ ๋ฅด๊ธฐ ์ํด์๋ ์ด ๋ชจ๋ ๊ฒฝ์ฐ๋ค ์ค์์ ์ง๋ ๋ถ์๋๊ฐ ๊ฐ์ฅ ๋ฎ๊ฒ ๋์ค๋ ๋
ธ๋๋ฅผ ์ ํํด์ฃผ๋ฉด ๋๋ค.
์ผ๋จ ์์์๋ โ๊ณ ์ด์ด ์๋์?โ ์ง๋ฌธ ๋
ธ๋์ ๋ํ ์ง๋ ๋ถ์๋๋ง ๊ณ์ฐํด์ฃผ์๋๋ฐ ๋๋จธ์ง ์ง๋ฌธ๋ค์ ๋ํ ์ง๋ ๋ถ์๋๋ ๊ณ์ฐํ๊ณ ๋ชจ๋ ๊ฒฝ์ฐ๋ค์ ํจ๊ป ๋ณด๋ฉด ์๋์ ๊ฐ๋ค.

์ฌ๊ธฐ์ ์ง๋ ๋ถ์๋๊ฐ ๊ฐ์ฅ ๋ฎ์ ๊ฒ์ โ๋ชธ์ด์ด ์๋์?โ ์ง๋ฌธ์ด๋ค. ๋ฐ๋ผ์ ์ด๊ฑธ root ๋ ธ๋๋ก ๊ณจ๋ผ์ฃผ๋ฉด ๋๋ค.
๊ฐ ๊ฒฝ์ฐ ๋ณ๋ก ์ง๋ ๋ถ์๋๊ฐ ๋ฎ๋ค๋ ๊ฒ์ ์๋ฏธ๋ฅผ ์ ๋ฆฌํด๋ณด๋ฉด:
๋ถ๋ฅ ๋ ธ๋์ ๋ถ์๋๊ฐ ๊ฐ์ฅ ์์ผ๋ฉด ์ด๋ฏธ ๋ฐ์ดํฐ๊ฐ ์ ๋๋ ์ ธ ์๊ธฐ ๋๋ฌธ์ ์๋ ๊ทธ๋๋ก ๋ถ๋ฅํด๋ ๋๋ค๋ ๋ป์ด๊ณ ,
์ง๋ฌธ ๋ ธ๋์ ๋ถ์๋๊ฐ ๊ฐ์ฅ ์์ผ๋ฉด ์ง๋ฌธ์ ํตํด์ ์ง๊ธ ์๋ ๋ฐ์ดํฐ ์ ๋ณด๋ค ๋ถ์๋๋ฅผ ๋ ๋ฎ์ถ ์ ์๋ค๋ ๋ป์ด๋ค.
์ด์ ๋๋จธ์ง ๋
ธ๋๋ค๋ ์์์ ๋ดค๋ ๋ฐฉ๋ฒ๋ค ๊ทธ๋๋ก ์ ์ฉํด๊ฐ๋ฉด ๋๋ค. ์์์ root ๋
ธ๋๋ฅผ โ๋ชธ์ด์ด ์๋์?โ๋ก ํ์ผ๋ ๊ทธ ๋ค์ ์ํฉ์ ๋ค์๊ณผ ๊ฐ๋ค.

์์ ๋ณด์ด๋ค์ํผ ๋ชธ์ด์ด ์๋๋ ์ง๋ฌธ์ '์'๋ผ๊ณ ๋ตํ๊ณ ๋ ํ ๋ค์ ๋ ธ๋๋ฅผ ์ ํ ๋๋ ํ์ต ๋ฐ์ดํฐ๊ฐ ๋ชธ์ด์ด ์๋ ๋ฐ์ดํฐ๋ค๋ก ๋ง ๊ตฌ์ฑ๋์ด ์๋ค. ๋ฐ๋ ์ด ๋ฐ์ดํฐ๋ค๋ก ๋ค์ ์ด์ ์ ํ๋ ์ง๋ ๋ถ์๋ ๋น๊ต ๊ณผ์ ์ ๊ฑฐ์น๋ฉด ๋๋ค.
๋ง์ฝ ๋ชธ์ด์ด ์๋ 60๋ช
์ ์ฌ๋๋ค ์ค์ ๋
๊ฐ์ธ ์ฌ๋์ 50๋ช
, ์ผ๋ฐ ๊ฐ๊ธฐ์ธ ์ฌ๋์ 10๋ช
์ด๋ผ๊ณ ํ์. ๊ทธ๋ฆฌ๊ณ ๋
๊ฐ์ธ ์ฌ๋์ด ๋ ๋ง์ผ๋ ๋ชธ์ด์ด ์๋ ๋ฐ์ดํฐ๋ ๋ชจ๋ ๋
๊ฐ์ด ์๋ค๊ณ ๋ถ๋ฅํด๋ณด์. ์ฆ, ๋
๊ฐ์ ๋ถ๋ฅ ๋
ธ๋๋ก ํด๋ณด์.
์ด ๋์ ์ง๋ ๋ถ์๋๋ฅผ ๊ณ์ฐํด๋ณด๋ฉด 0.278์ด ๋์จ๋ค.
๋ค์์ ๊ณ ์ด์ด ์๋์ง๋ฅผ ์ด์ฉํด์ ๋๋ด์ ๋์, ๊ธฐ์นจ์ด ์๋์ง๋ฅผ ์ด์ฉํด์ ๋๋ด์ ๋์ ๋ถ์๋๋ฅผ ๊ณ์ฐํด๋ณด์. ์์๋๋ก 0.270, 0.3์ด ๋์จ๋ค.
๋น๊ตํด๋ดค์ ๋, '๊ณ ์ด์ด ์๋์?'๋ฅผ ์ง๋ฌธ ๋ ธ๋๋ก ์ฌ์ฉํ์ ๋๊ฐ ๊ฐ์ฅ ์ง๋ ๋ถ์๋๊ฐ ๋ฎ๋ค. ๊ทธ๋ฌ๋ ์ด ์ง๋ฌธ์ ๋ ธ๋๋ก ๋ง๋ค์ด์ฃผ๋ฉด ๋๋ ๊ฒ์ด๋ค. ์ด์ ๊ฒฐ์ ํธ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ ๊ฒ์ด๋ค.

๋ฐฉ๊ธํ๋ ์ด ๊ณผ์ ์ ํธ๋ฆฌ์ ๋งจ ๋์ ์๋ leaf ๋ ธ๋๋ค์ด ๋ชจ๋ ๋ถ๋ฅ ๋ ธ๋๊ฐ ๋ ๋๊น์ง ๋ฐ๋ณตํด ์ฃผ๋ฉด ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ๋ง๋ค ์ ์๋ค.
ํธ๋ฆฌ๊ฐ ๋ช ์ธต๊น์ง ๋ด๋ ค๊ฐ๋์ง๋ฅผ ํธ๋ฆฌ์ ๊น์ด๋ผ๊ณ ํํํ๋๋ฐ, '๊น์ด 3 ์ด์ ๋ด๋ ค๊ฐ์ง ๋ง๋ผ!' ์ด๋ ๊ฒ ์ ํด์ค ์๋ ์๋ค.
์ด๋ด ๋ ๊ทธ๋ฅ ํน์ ๊น์ด๊น์ง ๋ด๋ ค์ค๋ฉด ๋ ์ด์ ์ง๋ ๋ถ์๋๋ฅผ ๋น๊ตํ์ง ์๊ณ ๋ถ๋ฅ ๋
ธ๋๋ฅผ ๋ง๋ ๋ค์ ๋๋ด๋ฉด ๋๋ค.
์๋ฅผ ๋ค์ด ๊ณ ์ด์ด ์๋ ๋ฐ์ดํฐ ์
์์ ๋
๊ฐ์ธ ์ฌ๋์ด ๋ ๋ง๋ค๋ฉด ๋
๊ฐ ๋
ธ๋๋ก ๋๋ด๋ฉด ๋๊ณ , ๊ณ ์ด์ด ์๋ ๋ฐ์ดํฐ ์
์์ ์ผ๋ฐ ๊ฐ๊ธฐ๊ฐ ๋ ๋ง๋ค๋ฉด ๊ทธ๊ณณ์ ์ผ๋ฐ ๊ฐ๊ธฐ ๋
ธ๋๋ก ๋๋ด๋ฉด ๋๋ค.
์ง๊ธ๊น์ง ๋ณธ ์์ฑ๋ค์ ๋ชจ๋ ์ฐธ ๊ฑฐ์ง์ผ๋ก ๋ฐํํ ๋ถ๋ฆฐํ ๋ฐ์ดํฐ์๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ๊ทธ๋ฅ โ๊ณ ์ด์ด ์๋์?โ ์ด๋ ๊ฒ ํ ์ ์๋ ์ง๋ฌธ์ด ํ๋๋ฐ์ ์์๋ค.
ํ์ง๋ง ์๋ ํ์์ ๋ฐ์ดํฐ๊ฐ ๊ฐ์ฅ ์ผ์ชฝ ์ฒด์จ ์์ฑ์ฒ๋ผ ์ซ์ํ์ผ๋ก ์๋ ๊ฒฝ์ฐ์๋ ๋ง๋ค ์ ์๋ ์ง๋ฌธ์ด ์์ฒญ ๋ง๋ค.

์๋ฅผ ๋ค์ด ์ฒด์จ์ด โ37.1๋๋ฅผ ๋๋์?โ, ์ฒด์จ์ด โ37.2๋๋ฅผ ๋๋์?โ, ์ฒด์จ์ด โ37.3๋๋ฅผ ๋๋์?โ ์ด๋ ๊ฒ ๋๋ ์์ด ์ง๋ฌธ์ด ๋ง์ ์ ์๋ค.
์ด๋ ๊ฒ ํ๋์ ์์ฑ์์ ๋ง๋ค ์ ์๋ ์๋ง์ ์ง๋ฌธ๋ค ์ค์ ํ๋๋ฅผ ๊ณ ๋ฅด๋ ๋ฐฉ๋ฒ์ ๋ฌด์์ธ์ง ์์๋ณด์.

๊ฐ์ฅ ๋จผ์ ๋ ์ฒด์จ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฌ์ํจ๋ค. ๊ทธ๋ผ ์ฒด์จ์ด ๋ฎ์ ๊ฑฐ๋ถํฐ ๋์ ์์๋๋ก ๋ฐ์ดํฐ๊ฐ ์ ๋ ฌ๋๋ค. ๊ทธ ๋ค์์๋ ์ฐ์๋ ์ฒด์จ ๋ฐ์ดํฐ๋ผ๋ฆฌ ํ๊ท ์ ๊ณ์ฐํ๋ค. ๊ทธ๋ฆฌ๊ณ ๊ณ์ฐ๋ ์ด ํ๊ท ์ฒด์จ๋ค์ ์ด์ฉํด์ ์ง๋ฌธ๋ค์ ํ๋์ฉ ๋ง๋ค์ด๋ณธ๋ค.
๊ทธ ํ ์ด ์ง๋ฌธ๋ค์ ๋ํด์ ์ง๋ ๋ถ์๋๋ฅผ ๊ณ์ฐํ๋ค. ๊ทธ๋ฌ๋๊น ๊ทธ ํ๊ท ์ฒด์จ์ ๊ธฐ์ค์ผ๋ก ์ผ์์ ๋ ๋ฐ์ดํฐ๊ฐ ์ผ๋ง๋ ์ ๋ถ๋ฅ๋๋์ง๋ฅผ ์ ๋ถ๋ค ๊ณ์ฐํด ์ฃผ๋ ๊ฒ์ด๋ค.
๊ทธ๋ ๊ฒ ํด์ ์ด ์ค์์ ๊ฐ์ฅ ์ง๋ ๋ถ์๋๊ฐ ๋ฎ์ ์ง๋ฌธ์ด ์์ ํ ๋ฐ, ์๋ฅผ ๋ค์ด์ ์ฒด์จ์ด 37.5๋ฅผ ๊ธฐ์ค์ผ๋ก ๋๋ด์ ๋๊ฐ ๊ฐ์ฅ ์ง๋ ๋ถ์๋๊ฐ ๋ฎ๋ค๊ณ ํ์. ๊ทธ๋ผ ์ฒด์จ ์์ฑ ๊ด๋ จ ์ง๋ฌธ ๋ ธ๋๋ฅผ ๋ง๋ค ๋ ๋ํ๋ก โ์ฒด์จ์ด 37.5๊ฐ ๋๋์?โ๋ฅผ ์ฌ์ฉํ๋ฉด ๋๋ค.
๊ทธ๋ผ ์ด์ ๋ ธ๋๋ฅผ ์ ํํ ๋๋ โ37.5๊ฐ ๋๋์?โ, โ๋ชธ์ด์ด ์๋์?โ, โ๊ธฐ์นจ์ด ์๋์?โ ์ด ์ธ ์ง๋ฌธ ๋ ธ๋๋ค๊ณผ ๋ถ๋ฅ ๋ ธ๋๋ค ์ค ๊ฐ์ฅ ์ง๋ ๋ถ์๋๊ฐ ๋ฎ์ ๊ฑฐ๋ฅผ ์ ํํ๋ฉด ๋๋ค.
์ฃผ์ํ ์ ์ ๋ค์ ๋ ธ๋๋ฅผ ๋ง๋ค ๋ ๋ง๋ค์ด ๋์ โ37.5๊ฐ ๋๋์?โ๋ผ๋ ๋ํ ์ง๋ฌธ ๋ ธ๋๋ฅผ ์ฌ์ฌ์ฉํ๋ ๊ฑด ์๋๋ค. ๋งค๋ฒ ๋ ธ๋๋ฅผ ๋ง๋ค ๋๋ง๋ค ์์์ ํ๋ ๊ฑฐ์ฒ๋ผ ํด๋น ๋ ธ๋๊น์ง ์ค๋ ํ์ต ๋ฐ์ดํฐ์ ๋ํด์ ๊ฐ์ฅ ์ข์ ์ฒด์จ ์ง๋ฌธ์ ๋๋ค์ ์ฐพ์๋ด์ผ ํ๋ค.
๊ฒฐ์ ํธ๋ฆฌ์ ์ฅ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
์ฌ๊ธฐ์ ํด์ํ๋ค๋ ๊ฒ์ ๋จธ์ ๋ฌ๋์์ ์์ธก์ ํ๋ ๋ฐ ์์ด์ ์ด๋ค ์์ฑ๋ค์ด ์ข ๋ ์ค์ํ๊ฒ ์ฌ์ฉ๋๊ณ , ์ด๋ค ๊ฒ๋ค์ด ์ข ๋ ์ค์ํ๊ฒ ์ฌ์ฉ๋๋์ง... ์ด๋ฐ ๊ฑธ ์์๋ธ๋ค๋ ๊ฒ์ด๋ค.
๊ทธ๋ผ ๊ทธ ์์ฑ๋ค์ ์ค์๋๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ ๋ํด์ ์์๋ณด์.
์์ฑ๋ค์ ์ค์๋๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด์๋ ์ฐ์ ๊ฐ ๋ ธ๋ ํ๋ํ๋์ ์ค์๋๋ฅผ ๊ณ์ฐํด์ผ ํ๋ค. ๋ ธ๋ ์ค์๋ (Node Importance) ๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐํ๋ค.
์ ์ค์๋๋ฅผ ๊ณ์ฐํ๋ ค๋ ๋
ธ๋๊น์ง ์ค๋ ํ์ต ๋ฐ์ดํฐ์ ์์ด๊ณ , ๋ ์ด ๋
ธ๋๊น์ง ์ค๋ ๋ฐ์ดํฐ ์
์ ๋ถ์๋, ๊ทธ๋ฆฌ๊ณ ์ ์ ์ฒด ํ์ต ๋ฐ์ดํฐ์ ์์ด๋ค.
๋จผ์ ๊ณ์ฐํ๋ ค๋ ๋
ธ๋๊น์ง ์ค๋ ํ์ต ๋ฐ์ดํฐ ์ ์ด๋ ๋ถ์๋ ๋ฅผ ๊ณฑํ ํ, ์ด ๋ฐ์ดํฐ ์ ์ผ๋ก ๋๋ ์ค๋ค.
๊ทธ๋ฆฌ๊ณ ์ค์๋๋ฅผ ๊ณ์ฐํ๋ ค๋ ๋
ธ๋์ ์ผ์ชฝ ์์ ๋
ธ๋, ์ค๋ฅธ์ชฝ ์์ ๋
ธ๋์์๋ ๋๊ฐ์ด ๊ณ์ฐ์ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ค์๋๋ฅผ ๊ณ์ฐํ๋ ค๋ ๋
ธ๋์ ๊ณ์ฐ ๊ฐ์์ ๋๋จธ์ง ๋ ๋
ธ๋์ ๊ณ์ฐ ๊ฐ์ ๋นผ๋ฉด ๋๋ค.
์์๋ ๋ค์๊ณผ ๊ฐ๋ค.
์ ์ฒด์ ํ์ต ๋ฐ์ดํฐ๋ 90๊ฐ๊ณ , root ๋
ธ๋์ ์ค์๋๋ฅผ ๊ณ์ฐํ๋ค๊ณ ํด๋ณด์.

์ด๊ฑธ ์ด์ฉํด์ root ๋ ธ๋(์ฃผํฉ์ ๋ฐ์ค)์ ์ค์๋๋ฅผ ๊ณ์ฐํด ๋ณด๋ฉด ์๋์ ๊ฐ๋ค.
๋ ธ๋ ์ค์๋๋ ์ ํํ ๋ฌด์์ ์์นํ ํ ๊ฒ์ผ๊น? ๋ ธ๋ ์ค์๋๋ฅผ ๊ณ์ฐํ๋ ์์ ๋ค์ ๋ณด๋ฉด ์๋์ ๊ฐ์๋ค.
์ค์๋๋ฅผ ๊ณ์ฐํ๋ ค๋ ๋ ธ๋์ ๋ถ์๋์์ ๊ทธ ๋ ธ๋ ์๋ ๋ ธ๋๋ค(์ผ์ชฝ, ์ค๋ฅธ์ชฝ)์ ๋ถ์๋๋ฅผ ๋บ ๊ฑฐ๊ณ , ๊ฐ ํญ์ ํด๋น ๋ ธ๋๋ค๊น์ง ๊ฐ๋ ๋ฐ์ดํฐ์ ๋น์จ์ ๋ง์ถฐ์ค ๊ฑฐ๋ค.
์๊ฐํด๋ณด๋ฉด ์ด๊ฑด ํ ๋ ธ๋์์ ๋ฐ์ดํฐ๋ฅผ ๋ ๊ฐ๋ก ๋๋ด์ ๋, ๋ฐ์ดํฐ ์์ ๋น๋กํด์ ๋ถ์๋๊ฐ ์ผ๋ง๋ ์ค์ด๋ค์๋์ง๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ด๋ค.
์ฆ, ํน์ ๋ ธ๋๊ฐ ์ผ๋ง๋ ์ค์ํ ๋ ธ๋์ธ์ง๋ฅผ ํ๋จํ ๋, ์ด ๋ ธ๋ ์ ํ๋ก ๋ถ์๋๊ฐ ์ผ๋ง๋ ๋ฎ์์ก๋์ง๋ฅผ ๋ณด๋ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ๋ ๋์ ์๋ก ์ข๋ค.
๋ถ์๋๊ฐ ๋ฎ์์ง์๋ก ๋๋ ์ง๋ ๋ฐ์ดํฐ ์ ๋ค์์ ์ ์ ๋ ๊ฐ ๋๋ ์ผ๋ฐ ๊ฐ๊ธฐ ๋ฐ์ดํฐ ์ค ํ๋์ ๋น์จ์ด ๋ง์์ง๋๋ฐ, ์ด๋ ๋๋ ์ง๋ ๋ฐ์ดํฐ ์ ๋ค์ ๋ํด์ ์ ์ ๋ ์์๊ฐ๋ค, ๋๋ "๋ ๋ง์ ์ ๋ณด๋ฅผ ์ป๋๋ค"๋ผ๊ณ ํด์ ์ด ์์น๋ฅผ ์ ๋ณด ์ฆ๊ฐ๋, ์์ด๋ก๋ Information Gain (IG)๋ผ๊ณ ๋ ๋ถ๋ฅธ๋ค. (๊ฐ๋ ์ ์ ์ฌ)
์ ๋ฆฌํ๋ฉด
์ด์ ๋ ธ๋ ์ค์๋์ ๋ํด์ ๋ฐฐ์ ์ผ๋ ๊ฒฐ์ ํธ๋ฆฌ์ ๋ชจ๋ ๋ ธ๋๋ค์ ๋ํด์ ๋ ธ๋ ์ค์๋๋ฅผ ๊ณ์ฐํ๋ค.

์ด๊ฑธ ์จ์ ํน์ ์์ฑ์ด ์ผ๋ง๋ ์ค์ํ์ง๋ฅผ ๊ณ์ฐํ ์ ์๋ค. ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ ์๋์ ๊ฐ๋ค.

๊ณ ์ด์ด ์ผ๋ง๋ ์ค์ํ์ง ์๊ณ ์ถ๋ค๊ณ ํ์. ๊ณ ์ด ์ง๋ฌธ์ ๊ฐ๋ ๋ชจ๋ ๋ ธ๋์ ์ค์๋๋ฅผ ๋ํ๊ณ ํธ๋ฆฌ ์์ ๋ชจ๋ ๋ ธ๋์ ์ค์๋์ ํฉ์ผ๋ก ๋๋ ์ค๋ค.
๊ธฐ์นจ์ด ์ผ๋งํผ ์ค์ํ์ง ์๊ณ ์ถ์ผ๋ฉด, ๊ธฐ์นจ ์ง๋ฌธ์ ๊ฐ๋ ๋ชจ๋ ๋ ธ๋์ ์ค์๋๋ฅผ ๋ํ๊ณ ํธ๋ฆฌ ์์ ๋ชจ๋ ๋ ธ๋์ ์ค์๋ ํฉ์ผ๋ก ๋๋ ์ค๋ค.
๋ชธ์ด์ด ์ผ๋ง๋ ์ค์ํ์ง ์๊ณ ์ถ์ผ๋ฉด ๋ชธ์ด ๋ ธ๋๋ค์ ์ค์๋๋ฅผ ๋ํด์ ๋ชจ๋ ๋ ธ๋์ ์ค์๋ ํฉ์ผ๋ก ๋๋๋ฉด ๋๋ค.
์ฝ๊ฒ ์๊ฐํ๋ฉด, ๋ชจ๋ ๋ ธ๋๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฐ๋๋ก ๋๋๋ฉด์ ๋๋๋ ๋ฐ์ดํฐ ์ ๋ค์ ์ง๋ ๋ถ์๋๋ฅผ ๋ฎ์ถ๋๋ฐ, ์ ์ฒด์ ์ผ๋ก ๋ฎ์ถฐ์ง ๋ถ์๋(๋ชจ๋ ๋ ธ๋ ์ค์๋ ํฉ)์์ ํน์ ์์ฑ ํ๋(~์ง๋ฌธ ๋ ธ๋ ์ค์๋ ํฉ)๊ฐ ๋ฎ์ถ ๋ถ์๋๊ฐ ์ผ๋ง๋ ๋๋์ง๋ฅผ ๊ณ์ฐํ ๊ฒ์ด๋ค.
ํน์ ์์ฑ์ ์ง๋ฌธ์ผ๋ก ๊ฐ๋ ๋ ธ๋๋ค์ ์ค์๋๋ค์ ํ๊ท ๋ธ ๊ฑฐ๋ ๋น์ทํ๋ฐ, ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ด๋ ๊ฒ ์ต์ข ์ ์ผ๋ก ๊ตฌํ ๊ฐ์ ์์ฑ์ ํ๊ท ์ง๋ ๊ฐ์ (Mean Gini decrease)๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ ํ๋ค.
๊ฐ ์์ฑ์ ํ๊ท ์ง๋ ๊ฐ์๋ฅผ ์ด์ฉํ๋ฉด, ํน์ ์์ฑ์ด ๊ฒฐ์ ํธ๋ฆฌ ์์์ ํ๊ท ์ ์ผ๋ก ์ผ๋ง๋ ๋ถ์๋๋ฅผ ๋ฎ์ท๋์ง๋ฅผ ๊ณ์ฐํ ์ ์๊ณ , ์ด๊ฒ ์์ผ๋ฉด ๊ฒฐ์ ํธ๋ฆฌ ์์์ ๊ทธ ์์ฑ์ด ์ผ๋ง๋ ์ค์ํ์ง๋ฅผ ํ๋จํ ์ ์๋ ๊ฒ์ด๋ค.
๊ฒฐ์ ํธ๋ฆฌ ์ค์ต ์ฝ๋๋ ์๋์ ๊ฐ๋ค.
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
# ๋ฐ์ดํฐ ์ค๋น
iris_data = load_iris()
X =pd.DataFrame(iris_data.data, columns=iris_data.feature_names)
y = pd.DataFrame(iris_data.target, columns=['Class'])
# ๊ฒฐ์ ํธ๋ฆฌ ์ฌ์ฉ
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=5)
model = DecisionTreeClassifier(max_depth=4) # ๊ฒฐ์ ํธ๋ฆฌ์ ์ต๋ ๊น์ด ์ค์
model.fit(X_train, y_train)
model.predict(X_test)
model.score(X_test, y_test) # ์ฑ๋ฅ ํ๊ฐ -> ๊ฒฐ๊ณผ: 0.9
# ์์ฑ ์ค์๋ ๋ณด๊ธฐ
importances = model.feature_importances_
indices_sorted = np.argsort(importances)
plt.figure()
plt.title("Feature Importances")
plt.bar(range(len(importances)), importances[indices_sorted])
plt.xticks(range(len(importances)), X.columns[indices_sorted], rotation=90)
plt.show()
๊ฒฐ๊ณผ:

์ถ์ฒ: ์ฝ๋์