
๋ชฉํ๋ฐฉ๋ํ ๋ฐ์ดํฐ์์ ์ ์๋ฏธํ ํจํด๊ณผ ๊ท์น์ ๋ฐ๊ฒฌ๋ฐ๊ฒฌ๋ ๊ท์น์ ์์ธก ๋ฐ ์์ฌ๊ฒฐ์ ์ ํ์ฉ๋ชฉ์ ์์ธก: ํจํด์ ๊ธฐ๋ฐ์ผ๋ก ๋ฏธ๋๋ฅผ ์์ธก โ ์ฌ์ ์ฑ๊ณต๋ฅ ํฅ์์ค๋ช : ๊ท์น์ผ๋ก ํ์์ ์ค๋ช โ ์์ฌ๊ฒฐ์ , ์ ์ ํ ๊ฐ๋ฐ ํ์ฉโ ๋ชฉ์ ์ ์: ๋ถ์ ๋ชฉํ ์ค์ โก ๋ฐ์ดํฐ ์ค๋น: ์์ง, ํ์ง ํ๋ณด

๊ณต์ DOC๋ชฉํ๋ณ์(๋ ์ด๋ธ) ์์ผ๋ฉด ์ง๋ํ์ต์์ผ๋ฉด ๋น์ง๋ํ์ตํ์คํ๋ API ์ ๊ณต (fit, predict)์: ํฉ๊ฒฉ/๋ถํฉ๊ฒฉ, A/B ํ์ ์๊ณ ๋ฆฌ์ฆ: KNN Naive Bayes Logistic Regression Decision Tree Random F

์ ๋ ฅ ๋ณ์($x$)๊ฐ ์ฌ๋ฌ ๊ฐ์ผ ๋ ๋ฐ์ดํฐ๋ฅผ ์ด๋ป๊ฒ ์ฒ๋ฆฌํด์ผ ํ๋์ง, ํนํ ํ๋ ฌ(Matrix)์ ์ฐจ์์ ๋ง์ถ๋ ๋ฒ์ ์ค์ ์ ์ผ๋ก ํ์ธํด๋ณด์์ ๋ ฅ ๋ฐ์ดํฐ(Feature)๊ฐ 1๊ฐ๊ฐ ์๋๋ผ ์ฌ๋ฌ ๊ฐ($x_1, x_2, ... x_n$)์ธ ๊ฒฝ์ฐ๋จ์ ํ๊ท๊ฐ 2์ฐจ์ ํ๋ฉด์ '์ง์ '์

๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)์ ์์ค ํจ์(Loss Function)์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ตฌํ์ฌ, ๊ธฐ์ธ๊ธฐ๊ฐ ๋ฎ์ ์ชฝ์ผ๋ก ๊ณ์ ์ด๋์์ผ ๊ทน์๊ฐ(์ต์ ์ ํ๋ผ๋ฏธํฐ)์ ์ฐพ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.LinearRegression: ์ ๊ท ๋ฐฉ์ ์(OLS)์ ์ฌ์ฉํด ํ ๋ฒ์ ํด๋ฅผ ๊ตฌํจ (

๋ง์ฝ ์ฐ๋ฆฌ๊ฐ ์์ธกํด์ผ ํ๋ ๊ฒ์ด ์ซ์๊ฐ ์๋๋ผ "ํฉ๊ฒฉ/๋ถํฉ๊ฒฉ" ๊ฐ์ ๋ฒ์ฃผ์ผ ๋๋ ์ ํ ํ๊ท๋ฅผ ์ธ ์ ์์๊น? ๋๋ต์ No ๊ทธ๋ผ ์ด๋ป๊ฒ ํด์ผํ ๊น?๊ณต๋ถ ์๊ฐ($x$)์ ๋ฐ๋ฅธ ํฉ๊ฒฉ ์ฌ๋ถ($y$)๋ฅผ ์์ธกํ๋ค๊ณ ๊ฐ์ ํด ๋ณด์.ํฉ๊ฒฉ = 1๋ถํฉ๊ฒฉ = 0์ ํ ํ๊ท(Linear Regr

๋ชจ๋ธ์ ํ์ต์ํฌ ๋, ๊ฐ์ง๊ณ ์๋ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๊ณต๋ถ(ํ์ต)ํ๋ ๋ฐ ์จ๋ฒ๋ฆฌ๊ฒ ๋๋ฉด ๋ชจ๋ธ์ด ์ด๋ฏธ ๋ต์ ์ธ์๋ฒ๋ ธ๊ธฐ ๋๋ฌธ์ ํญ์ ์ ๋ต์ ๋งํ๋ค.but ์ฒ์ ๋ณด๋ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๋ง๋๋ฉด ์๋ง์ด ๋จ.๋ชฉ์ : ๋ชจ๋ธ์ด ๋ณด์ง ๋ชปํ ๋ฐ์ดํฐ์ ๋ํด ์ผ๋ง๋ ์ ์๋ํ๋์ง(์ผ๋ฐํ ์ฑ๋ฅ) ํ๊ฐ
์๋ฅผ ๋ค์ด, 'ํค(170cm)'์ '๋ชธ๋ฌด๊ฒ(65kg)'๋ฅผ ๊ฐ์ง๊ณ ํน์ฑ์ ๋ถ์ํ๋ค๊ณ ํ์.ํค: 150 ~ 190 (๋ฒ์๊ฐ ํผ)๋ชธ๋ฌด๊ฒ: 40 ~ 100 (์๋์ ์ผ๋ก ๋ฒ์๊ฐ ์์)๋ฐ์ดํฐ์ ๋จ์(Scale) ์ฐจ์ด๊ฐ ํฌ๋ฉด, ์ซ์๊ฐ ํฐ ํน์ฑ(ํค)์ด ๊ฒฐ๊ณผ์ ๊ณผ๋ํ ์ํฅ์ ๋ฏธ์น๊ฒ ๋
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ(Preprocessing) ๋จ๊ณ์ ๋ชจ๋ธ ํ์ต(Modeling) ๋จ๊ณ๋ฅผ ํ๋์ ๊ฐ์ฒด๋ก ๋ฌถ์ด์ ์์ฐจ์ ์ผ๋ก ์คํํด์ฃผ๋ ๊ธฐ๋ฅ์ฝ๋ ๊ฐ์ํ: ์ฌ๋ฌ ๋จ๊ณ๋ฅผ ํ ์ค์ ์ฝ๋๋ก ๊ด๋ฆฌํ ์ ์๋ค.์ค๋ฅ ๋ฐฉ์ง (Data Leakage): ํ์ต ๋ฐ์ดํฐ(Train)์ ํ ์คํธ ๋ฐ์ดํฐ

๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ '๊ธ์'๋ฅผ ์ดํดํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ ๋ฌธ์๋ก ๋ ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋ฅผ ๋ฐ๋์ ์ซ์๋ก ๋ณํํด์ค์ผ ํ๋ค(Ex. "์ฌ๊ณผ", "๋ฐ๋๋" $\\rightarrow$ Error!)์ด ์์ ์ ์ธ์ฝ๋ฉ(Encoding)๋ผ๊ณ ํ๋๋ฐ ๋ํ์ ์ธ ๋ ๊ฐ์ง ๋ฐฉ์์ ์์๋ณด์. ๐ $\\
์์นํ ๋ฐ์ดํฐ์ ๋ฒ์ฃผํ ๋ฐ์ดํฐ๊ฐ ์์ธ ๊ฐ๋จํ ์์ ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋ฅผ ์ ์(0,1,2,..)๋ก ๋ณํํ๋ค."์์นํ 10, ๋ฒ์ฃผํ A"์ธ ๋ฐ์ดํฐ๋ฅผ ์์ธกํ๊ณ ์ถ๋ค๋ฉด?๋ชจ๋ธ์ 'A'๋ฅผ ๋ชจ๋ฅธ๋ค. ์ง์ ์ซ์๋ก ๋ฐ๊ฟ์ค์ผ ํ๋ค.$\\rightarrow$ ๋งค๋ฒ ์์ธกํ ๋๋ง๋ค encode.tr
Pipeline์ ๋ชจ๋ ๋ฐ์ดํฐ์ ๋๊ฐ์ ์ ์ฒ๋ฆฌ๋ฅผ ์ ์ฉํ๋ค.๊ทธ๋ฌ๋ ์ค์ ๋ฐ์ดํฐ์ ์๋ ์ซ์(Scaling ํ์)์ ๋ฌธ์(Encoding ํ์)๊ฐ ์์ฌ์๊ธฐ ๋๋ฌธ์ ๋ณตํฉ์ ์ธ ํ์๊ฐ ํ์.๋ฌธ์ ์ : Pipeline์ ๋ค์ด์จ ๋ชจ๋ ๋ฐ์ดํฐ(x_data)์ ์ผ๊ด์ ์ผ๋ก ๋ณํ์ ์๋.

๋ถ๋ฅ ๋ชจ๋ธ ํ๊ฐ์ ์ ํ๋ 99%๊ฐ ์ง์ ํ ๋ชจ๋ธ ์ฑ๋ฅ์ด๋ผ๊ณ ํ ์ ์์๊น?์ ํ์ ์ง๋จ์ด๋ ๋ถ๋ํ ๊ฒ์ถ์ฒ๋ผ ๋ฐ์ดํฐ๊ฐ ๋ถ๊ท ํํ ๊ฒฝ์ฐ, ์ ํ๋ ์ธ์ ์ ๋ฐ๋(Precision), ์ฌํ์จ(Recall), F1-Score๋ฅผ ๋ฐ๋์ ํ์ธํด์ผ ํ๋ค.๋ชจ๋ธ์ด ์์ธกํ ๊ฐ๊ณผ ์ค์ ์ ๋ต์ด ์ผ

์ ํ๋, ์ ๋ฐ๋, ์ฌํ์จ... ์ซ์ ํ๋๋ก๋ง ๋ชจ๋ธ์ ํ๊ฐํ๊ธฐ์ ๋ถ์กฑํ ๋๊ฐ ์๋ค.๋ชจ๋ธ์ด ์ผ๋ง๋ ์๊ฑฑํ๊ฒ(Threshold) ํ์ ํ๋๋์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋ฌ๋ผ์ง๊ธฐ ๋๋ฌธ.๋ชจ๋ ๊ฐ๋ฅํ ๋ถ๋ฅ ์๊ณ๊ฐ(Threshold)์ ๋ํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์๊ฐํํ ๊ทธ๋ํROC ๊ณก์ ์ "๋ง์ถ ๊ฒ(
๋ก์ง์คํฑ ํ๊ท : ์ด์ง๋ถ๋ฅ(Binary Classification) ํฉ๊ฒฉ/๋ถํฉ๊ฒฉ ๊ฐ์ ๋๊ฐ์ง ๋ถ๋ฅ๋ง ์ฒ๋ฆฌ ๊ฐ๋ฅ.ํ์ , ํ์ข ๊ฐ์ ๋ถ๋ฅ๊ฐ 3๊ฐ ์ด์์ธ ๊ฒฝ์ฐ ์ฒ๋ฆฌ ๋ฐฉ๋ฒ๋ก์ง์คํฑ ํ๊ท๋ฅผ ์ด์ฉํด ๋ค์ค ๋ถ๋ฅ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ ํฌ๊ฒ ๋ ๊ฐ์ง๊ฐ ์๋ค.๊ฐ์ฅ ์ง๊ด์ ์ธ ๋ฐฉ๋ฒ. ํด๋์ค๊ฐ