iris ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ ๋ชจ๋ insatall (1) ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ sklearn ์ ์ฌ๋ผ์ ์๋ ๋ฐ์ดํฐ ์ด์ฉ (2) ๋ฐ์ดํฐ ํ์ ํ์ธ ๊ฐ๊ฐ์ ๋ฐ์ดํฐ ํ์ธ ![](https://velog.velcdn.com/images/jaam_mini/post/33
1. ๋ฐ์ดํฐ ์ ๋ฆฌ ์์กด์ํฉ ํ์ธ 2) ์ฑ๋ณ 3) ๊ฒฝ์ ๋ ฅ crosstab : 2๋ฒ์งธ ์ปฌ๋ผ์ ๊ตฌ๋ถ์ง์ด ์ฃผ๊ณ , ์ธ๋ฑ์ค์ 1๋ฒ์งธ ์ปฌ๋ผ์ ๋ด์ ์ค margins=True : ํฉ๊ณ 4) ๋ฑ๊ธ/์ฑ๋ณ _FacetG
1. label_encoder 1) fit ~ transform (๋ฌธ์ -> ์ซ์ array(['a', 'b', 'c'], dtype=object) array([0, 1, 2, 0, 1]) 2) fit+transform array([0, 1, 2, 0, 1])
1. ์์ธ๋ฐ์ดํฐ ๋ถ์ 1_๋ฐ์ดํฐ ์ฝ์ด์ค๊ธฐ 2_์ปฌ๋ผ์กฐ์ฌ Index(['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH'...
๊ธฐ์ด ์ํ ๊ฐ๋ ํ๊ท ๋ชจ๋ธ ๋ด๊ฐ ๊ฐ์ง๊ณ ์๋ ๋ฐ์ดํฐ๋ฅผ ์ง์ ์ผ๋ก ๋ง๋ค์ด ๋๊ณ , ๊ฐ ๊ฐ๋ค์ ์์ธกํ๋ ๊ฒ (ํ๊ท ๋ชจ๋ธ ์์ธก ๊ฒฐ๊ณผ) : ์ฐ์๋ ๋ณ์๊ฐ ๋ถ๋ฅ ๋ชจ๋ธ ๊ตฌ๋ถ์ด ๋ช ํํจ ๋ช๊ฐ์ ์ข ๋ฅ์์ ๊ฐ์ ์ฐพ์๋ด๋ ๊ฒ (iris, ์์ธ ํ๋ก์ ํธ) ์ด์ง ๋ถ๋ฅ 0 ๊ณผ 1 ๋ง๋ค, ์๋๋ค ์ ์ฒด ๋ฐ์ดํฐ ์์ ์ค์ 1์ ๊ฐ์ ๊ฐ์ง ๋ฐ์ดํฐ TP = ์ค์ 1์ธ๋ฐ 1๋ก ๋ง์ถ ...
์ง๋ ์๊ฐ๊น์ง ๋ฐฐ์ด ๊ฒ โถ ์ง๋ํ์ต (๋ผ๋ฒจ์ ๋ฌ์์ฃผ๋ ๊ฒ = ์ ๋ต์ ์๋ ค์ฃผ๋๊ฒ) ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋ฌธ์ ํด๊ฒฐ ๋ฐฉ๋ฒ ๋ฌธ์ ๋ถ์ > ํ์ต ์ํด(๋ฐ์ดํฐ ๊ณ์ ์ ์ ๋จ) > ๋ฐ์ดํฐ๋ฅผ ๋ฒ ์ด์ค๋ก ํ๊ธฐ ๋๋ฌธ์, ์๊ณ ๋ฆฌ์ฆ ๊ตฌํ & ์๋น์ค ๋ฐ์นญ ๋ถ๋ถ๋ง ์ฝ๋ฉ์ผ๋ก ํด๊ฒฐ ๋ชจ๋ธ ์ค์ค๋ก
1. Cost Function ์ต์๊ฐ ์ง์ ์ฐพ๊ธฐ 1.236842105263158 ์ง์ ๋ฐ์ดํฐ = ๋ชจ๋ธ ์๋ฌ๋ '0' ๋ฐ์ดํฐ != ๋ชจ๋ธ ์๋ฌ๊ฐ '์ฆ๊ฐ' ![](https://velog.velcdn.com/images/jaam_mini/post/e93461cd-9072-42f3-9d7b-473a1
Logistic Regression์ ์ฐ๋ ์ด์ : ๐ก๋ถ๋ฅ๊ธฐ ์ญํ ์ฆ, linear regression (์ ํํ๊ท)์ ๋ถ๋ฅ์ ์ ์ฉํ ๊ฒ์ด Logistic Regression (๋ก์ง์คํฑ ํ๊ท)์ด๋ค. LR ์ด๋ก ์ ์ฑ ์ข ์์ ์ฐพ๋๋ค๊ณ ๊ฐ์ ํ์. linear regression (์ ํํ๊ท)์ ์ ์ฉํ๋ค๋ฉด 0๊ณผ 1๋ฐ์ ์์ด์ ์ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํ๊ธฐ๊ฐ ์ด๋ ค ...
Precision(์ ๋ฐ๋) and Recall(์ฌํ์จ) 1) ๋ฐ์ดํฐ ๊ฐ์ ธ์ค๊ธฐ 2) ๋ง ๋ฑ๊ธ ์ค์ 3) ๋ฐ์ดํฐ ๋ถ๋ฆฌ 4) ๋ก์ง์คํฑ ํ๊ท Train Acc : 0.7429286126611506 Test Acc : 0.7446153846153846 5) classification report 6) confusion matrix array( ...
์์๋ธ ? ๐ ์์๋ธ ๊ธฐ๋ฒ์ voting ์ ์ฒด ๋ฐ์ดํฐ ์ ์์ ๊ฐ๊ธฐ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ฆฌ๋ ๊ฒ ์๋ ๊ฒ ๋ค ๋๋ ค๋ณด๊ณ ๋ค์๊ฒฐ์ ์ํด์ ์ต์ข ๊ฒฐ์ ํ๊ฒ ๋ค ๐ bagging ๊ธฐ๋ฒ bootstrapping : ์ค๋ณต์ ํ์ฉํด ์ํ๋ง ํจ ๋๋คํ๊ฒ ์ํ๋ง๋ ๋ฐ์ดํฐ์ ๊ฐ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ ๋ถ์ฌ์ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ์๋ค์ ๐ ๊ฒฐ์ ๋ฐฉ๋ฒ์์์
์์๋ธ๊ธฐ๋ฒ ์์๋ธ์ ์ ํต์ ์ผ๋ก Voting, Boosting, Bagging, ์คํ๊น ์ผ๋ก ๋๋จ ๋ณดํ ๊ณผ ๋ฐฐ๊น ์์ฌ๋ฌ๊ฐ์ ๋ถ๋ฅ๊ธฐ๊ฐ ํฌํ๋ฅผ ํตํด ์ต์ข ์์ธก ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐ์ ํ๋ ๋ฐฉ์์ด๋ค ๋์ ์ฐจ์ด์ ์ ๋ณดํ ์ ๊ฐ๊ฐ ๋ค๋ฅธ ๋ถ๋ฅ๊ธฐ, ๋ฐฐ๊น ์ ๊ฐ์ ๋ถ๋ฅ๊ธฐ๋ฅผ ์ฌ์ฉ ๋ํ์ ์ธ Bagging
์๋ก์ด ๋ฐ์ดํฐ๊ฐ ์์ ๋, ๊ธฐ์กด ๋ฐ์ดํฐ์ ๊ทธ๋ฃน ์ค ์ด๋ค ๊ทธ๋ฃน์ ์ํ๋์ง ๋ถ๋ฅํ๋ ๋ฌธ์ k๋ ๋ช ๋ฒ์งธ ๊ฐ๊น์ด ๋ฐ์ดํฐ๊น์ง ๋ณผ ๊ฒ์ธ๊ฐ๋ฅผ ์ ํ๋ ์์น ์ฆ, ์ฝ๊ฒ ๋งํด ์๋ก์ด ๋ฐ์ดํฐ(๊ฒ์์ )์ด ๋นจ๊ฐ-ํ๋ ์ค ์ด๋๋ก ๋ถ๋ฅ ๋๋์ง ์ ํ๋ ๊ฒ๋ ๊ฐ๋จํ ๋งํด, K๊ฐ์ ์ค์ ํ๊ณ , ๊ทธ ๊ฐ์
์ด๋ฒ์ ์ฌ์ฉํ ๋ฐ์ดํฐ : HAR_datasetGBM - Gradient Boosting Machine๋ถ์คํ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ๋ฌ ๊ฐ์ ์ฝํ ํ์ต๊ธฐ(week learner)๋ฅผ ์์ฐจ์ ์ผ๋ก ํ์ต-์์ธกํ๋ฉด์ ์๋ชป ์์ธกํ ๋ฐ์ดํฐ์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํด์ ์ค๋ฅ๋ฅผ ๊ฐ์ ํด๊ฐ๋ ๋ฐฉ์GBM์ ๊ฐ์ค
ํ๋ก์ ํธ ์๊ฐ ์ฃผ์ : ์ ์ฉ์นด๋ ๋ถ์ ์ฌ์ฉ์ ๊ฒ์ถ ๋ฐ์ดํฐ : https://www.kaggle.com/MLG-ULB/CREDITCARDFRAUD ๊ฐ๋ ์ ์ฉ์นด๋์ ๊ฐ์ ๊ธ์ต๋ฐ์ดํฐ๋ค์ ๊ตฌํ๊ธฐ๊ฐ ์ด๋ ค์ ๊ธ์ต ๋ฐ์ดํฐ๋ค์ ๋ฐ์ดํฐ๋ ๋ํ ๋ค๋ฃจ๊ธฐ ์ฝ์ง ์์ ๊ทธ๋ฌ๋ ์ง๋ฅํ
install Kkma ['ํ๊ตญ์ด ๋ถ์์ ์์ํฉ๋๋ค', '์ฌ๋ฏธ์์ด์ ~'] ['ํ๊ตญ์ด', '๋ถ์'] [('ํ๊ตญ์ด', 'NNG'), ('๋ถ์', 'NNG'), ('์', 'JKO'), ('์์ํ', 'VV'), ('ใ ๋๋ค', 'EFN'), ('์ฌ๋ฏธ์', 'VA'), ('์ด์', 'EFN'), ('~', 'SO')] Hannanum ['...