์๋น์ค ์ ๊ณต์๊ฐ ์ด๋ค ํ์ด์ง๋ฅผ ์คํฌ๋ํ ํด๋ ๋๊ณ , ์ ๋๋์ง ๊ตฌ์ฒด์ ์ผ๋ก ๋ช ์ํ๋ ํ ์คํธ ์ ๋ณด. ๋ฐ์ดํฐ ์์ง ์ robots.txt ์ฝ๋ ํ์ธ!์คํ ๋ผ์ด์ผ์ค์ธ์ง ํ์ธ - ๊ณต๊ณต๋ฐ์ดํฐ๋ผ๊ณ ํด์ ๋ฌด์์ ๋ฐ์ดํฐ ์์ง์ ํ๋ฉด ์๋จ.ํ ๋ฒ์ ๋๋ฌด ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์์ฒญ๋ฉด DDOS ๊ณต
์ฌ์ง ์ถ์ฒ์น ์ฌ์ดํธ์์ ์ค๋ฅธ์ชฝ ํด๋ฆญ - ๊ฒ์ฌnetwork ํญ ํด๋ฆญํ์ด์ง ๋๊ธฐ๋ฉฐ ์์ฑ๋๋ ํ์ผ ํ์ธ (โ ์ฃผ๊ธฐ์ ์ผ๋ก ๐ซ๋ฒํผ ๋๋ฅด๋ฉฐ ํ์ผ ์์ฑ์ฐฝ ์๋ก๊ณ ์นจ)์ํ๋ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ ํ์ผ ํด๋ฆญ (Preview ํญ์์ ๋ด์ฉ ํ์ธ ๊ฐ๋ฅ)Headers ํญ์์ url ๋ณต์ฌconcat
requests.get("url"): url์ ์ ๋ณด๋ฅผ ๊ฐ์ ธ์ด.raise_for_status(): ์ฌ๋ฐ๋ฅธ ์ ๋ณด๋ฅผ ๊ฐ์ ธ์ค์ง ๋ชปํ์ ๋ ์๋ฌ ๋ฐ์ ๋ฐ ํ๋ก๊ทธ๋จ ์ข ๋ฃresponse.text๋ก ๋ถ๋ฌ์จ ์ ๋ณด ํ์ผ๋ก ๋ง๋ค์ด ํ์ธํ๊ธฐ: ๋ฌธ์์ด์ ์ผ์ ํ ํจํด์ ํํํ๋ ์ธ์ดeg) ์ฃผ๋ฏผ
์์ธกํ ๊ฐ์ด ์ค์ ๊ฐ์ ๋ง์ถ๋ฉด ์ ๋ต, ์์ธก์ด ์ค์ ๊ฐ๊ณผ ๋ค๋ฅด๋ฉด ์ ๋ต์ด ์๋ ๊ฒ์ ๋ต == label == target (scikit-learn์์ ์ฃผ๋ก ์ฌ์ฉํ๋ ๋จ์ด)๊ฐ์ด ์์ผ๋ฉด (NaN ํน์ Null ์ด๋ฉด) ์ ๋ต์ด ์๋ ๊ฒ์ด์ ๋ฉดํ ์ํ์ผ๋ก ์๋ฅผ ๋ค๋ฉด, 1\. ์ ๋ต์ด ์
์ฉ์ด ์ ๋ฆฌLabeller: ์ ๋ต์ด ์๋ ๋ฌธ์ ์ ์ ๋ต์ ์ ํด์ฃผ๋ ์ฌ๋Labelling: ์ฒ์์ ์ ๋ ฅ๋ฐ์ง ์์ ๊ฐ๋ค(๊ฒฐ์ธก์น)์ ๋ํด ์ค๋ฌธ์ด๋, ๊ฐ์ ์ ๋ ฅํ๋ฉด ํฌ์ธํธ๋ฅผ ๋ ์ฃผ๋ ์ด๋ฒคํธ๋ฅผ ์ฌ๋ ๋ฑ ๋ค์ํ ๋ฐฉ๋ฒ์ผ๋ก ๊ฐ(์ ๋ต)์ ์ ๋ ฅ ๋ฐ๋ ์ผEncoding: ๋ฒ์ฃผํ๋จธ์ ๋ฌ๋์์๋
INNOPOLIS AI SPACE-S ์ธ๊ณต์ง๋ฅ ์ธ๋ฏธ๋ - ์ ํ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๋จธ์ ๋ฌ๋ ๋ฌธ์ ํด๊ฒฐ ํจํด์ด ๋ถ๋ถ์ ์ ์ดํดํ์ง ๋ชปํ๊ณ ๋์ด๊ฐ๋ฉด ๋ชจ๋ธ๋ง์ ์ฒ์๋ถํฐ ๋ค์ ํด์ผํ๋ ์ผ์ด ์๊ธธ ์๋ ์๊ธฐ ๋๋ฌธ์ ๋ฌธ์ ์ ๋ฐ์ดํฐ๋ฅผ ํ์คํ๊ฒ ์ดํดํ๋ ๊ฒ์ด ์ค์ํ๋ค.๋ฌธ์ ๋ฐฐ๊ฒฝ๊ณผ ๋ชฉ์ ๋ฌธ์
ํ๋ธ๋ก์์๋ ์์ ์ ์ฒซ๋ฒ์งธ ํ์ ์ปฌ๋ผ(ํ๋๋ช ) ์ผ๋ก ๊ฐ์ง๊ณ ์ด.์ฌ์ฉํ์ง ์๋ ์ปฌ๋ผ์ ์จ๊น ๊ธฐ๋ฅ์ผ๋ก ์จ๊ธฐ๊ฑฐ๋ ์จ๊ธด ์ปฌ๋ผ์ ๋ค์ ๋ถ๋ฌ ์ฌ ์ ์๋ค.๐ ์จ๊ธด ์ปฌ๋ผ์ ๋ค์ ๋ถ๋ฌ์์ ๋ ํ์์ผ๋ก ๋์จ๋ค๋ฉด ํด๋น ์ปฌ๋ผ์ ๋ค์ ํด๋ฆญํด ์จ๊น ํด์ ๋ฅผ ํด์ผํ๋ค."ํํฐ"๋ฅผ ์ฌ์ฉํด์ ๋ฒ์๊ฐ
Scikit-Learn Cheetsheet์ง๋(Supervised Learning): ์ ๋ต O๋น์ง๋(Unsupervised Learning): ์ ๋ต XDecision Tree ์๊ณ ๋ฆฌ์ฆ์ ์ซ์๋ง ์ธ์ํ ์ ์๋ค.
๊ฒฐ์ธก์น๋ฅผ ๋ค๋ฅธ ํผ์ฒ์ ์ค๊ฐ๊ฐ์ด๋ ์ค์๊ฐ์ผ๋ก ์ฑ์์ค ์๋ ์์ง๋ง ๊ฒฐ์ธก์น๋ฅผ ์์ธกํ๋ ๋ฐฉ๋ฒ๋ ์๋ค.cross validation; cross_val_predict() : ์ค์ฐจ ๊ตฌํ๊ธฐMAE(Mean Absolute Error): ํ๊ท ์ ๋ ์ค์ฐจMAPE(Mean Absolute
ํด๋น ๋ด์ฉ์ ๋ฉ์์ด์ฌ์์ฒ๋ผ AI School ์ค๋์ฝ๋ ๋ฐ์กฐ์ ๊ฐ์ฌ์ ์๋ฃ์ ๋๋ค.์ ๊ทํ: ์ซ์ ์ค์ผ์ผ์ ์ฐจ์ด๊ฐ ํด ๋ ๊ฐ์ ์ ๊ท๋ถํฌ๋ก ๋ง๋ค์ด ์ฃผ๊ฑฐ๋ ์ค์ผ์ผ ๊ฐ์ ๋ณ๊ฒฝํด ์ฃผ๋๊ฒ์ด์์น: ์ด์์น๋ฅผ ์ ๊ฑฐํ๊ฑฐ๋ ๋์ฒด๋์ฒด: ๊ฒฐ์ธก์น๋ฅผ ๋ค๋ฅธ ๊ฐ์ผ๋ก ๋์ฒด์ธ์ฝ๋ฉ: ํธ์นญ, ํ์น์ง์ ์์น,
"PassengetId"๋ uniqueํ ๊ฐ์ด๊ณ , feature๋ก ์ฌ์ฉํ์ง ์์๊ฑฐ๋ผ index๋ก ์ง์ (Index๋ก ์ง์ ํ๋ฉด feature์์ ์๋์ผ๋ก ๊ฑธ๋ฌ์ง).ํ์ค์ธ๊ณ์์ test๋ ์์ง ๋ชจ๋ฅด๋ ๋ฐ์ดํฐ์ด๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ๋ฅผ ํ ๋๋ train์ ๊ธฐ์ค์ผ๋ก ํฉ๋๋ค.
๋ฐ์ดํฐ ์ ํฐ๋ฆฌ๋ฐ์ดํฐ ์ธํธ ๋ถ๋ฆฌ (train, validation, test)๋ชจ๋ธ ํ์ต์์ธก ์ํํ๊ฐEstimator ์๊ณ ๋ฆฌ์ฆ ๋ถ๋ฅClassificationDecisionTree == white box (์ค๋ช ์ด ๊ฐ๋ฅํ๋ค)RandomForest (DecisionTree์ ์
โจ ์ฒ์๋ถํฐ ์ฐจ๊ทผ์ฐจ๊ทผ, ๋ด ํ์ด์ค ๋๋ก โจ๊ฐ์: ๋ถ์คํธ์ฝ์ค - ํ๋ก์ ํธ๋ก ๋ฐฐ์ฐ๋ ๋ฐ์ดํฐ์ฌ์ด์ธ์ค๋ฐ์ดํฐ์ ์ถ์ฒ: Pima Indians Diabetes Database | KaggleGini๊ณ์๊ฐ 0์ด๋๋ฉด ํธ๋ฆฌ๊ฐ ๋ฉ์ถ๊ณ ๋น๋จ๋ณ์ด๋ค ์๋๋ค๋ฅผ ํ๋จ. ํธ๋ฆฌ๊ฐ ๊น์ด์ง์๋ก ํธ๋ฆฌ๊ฐ
โจ ์ฒ์๋ถํฐ ์ฐจ๊ทผ์ฐจ๊ทผ, ๋ด ํ์ด์ค ๋๋ก โจ ๊ฐ์: ๋ถ์คํธ์ฝ์ค - ํ๋ก์ ํธ๋ก ๋ฐฐ์ฐ๋ ๋ฐ์ดํฐ์ฌ์ด์ธ์ค ๋ฐ์ดํฐ์ ์ถ์ฒ: Pima Indians Diabetes Database | Kaggle EDA ์ ๋ต๊ฐ์ธ "Outcome"(๋น๋จ๋ณ ๋ฐ๋ณ์ฌ๋ถ)๊ณผ One-Hot-Enco
โจ ์ฒ์๋ถํฐ ์ฐจ๊ทผ์ฐจ๊ทผ, ๋ด ํ์ด์ค ๋๋ก โจ๊ฐ์: ๋ถ์คํธ์ฝ์ค - ํ๋ก์ ํธ๋ก ๋ฐฐ์ฐ๋ ๋ฐ์ดํฐ์ฌ์ด์ธ์ค๋ฐ์ดํฐ์ ์ถ์ฒ: Pima Indians Diabetes Database | Kaggle๐๐ป ์ํ์ ์๊ฐ ์ ์ ๋ฐ์ดํฐ๋ก ํ์ต๊ณผ ์์ธก์ ํ๋ฉด train ๋ฐ์ดํฐ์ ์ด overfit
CHAPTER 2 1. ๋ถ๋ถ ์ ์ฒด ๋ถ์ (1) - ํ์ด์ฐจํธ & ๋๋์ฐจํธ ๋ถ๋ถ ์ ์ฒด ๋ถ์์ ์ ์ฒด์์ ๋ฉค๋ฒ๋ค์ด ๊ฐ๊ฐ ์ฐจ์งํ๋ ๋น์ค ๋๋ ๋น์จ์ ๊ตฌํ ๋ ์ ์ฉํ ์๊ฐํ ๋ฐฉ๋ฒ. > ๋๋์ฐจํธ: ํ์ด์ฐจํธ 2๊ฐ๋ฅผ ์ด์ค์ถ์ ์ ์ฉํด์ ๋ง๋ ๋ค. ๊ฐ์ด๋ฐ์ ์ข ํฉ์ ์ธ ์ ๋ณด๋ฅผ ๋ฃ์ ์ ์
โจ ์ฒ์๋ถํฐ ์ฐจ๊ทผ์ฐจ๊ทผ, ๋ด ํ์ด์ค ๋๋ก โจ๊ฐ์: ๋ถ์คํธ์ฝ์ค - ํ๋ก์ ํธ๋ก ๋ฐฐ์ฐ๋ ๋ฐ์ดํฐ์ฌ์ด์ธ์ค๋ฐ์ดํฐ์ ์ถ์ฒ: Pima Indians Diabetes Database | Kaggle๊ฒฐ์ธก์น๋ฅผ ์ ๊ฑฐํ ์๋ ์์ง๋ง ๊ฒฐ์ธก์น๊ฐ ๋๋ฌด ๋ง์ ๊ฒฝ์ฐ์์๋ ์ฑ์์ฃผ๋ ๊ฒ์ด ์ข๋ค.df.loc
โจ ์ฒ์๋ถํฐ ์ฐจ๊ทผ์ฐจ๊ทผ, ๋ด ํ์ด์ค ๋๋ก โจ ๊ฐ์: ๋ถ์คํธ์ฝ์ค - ํ๋ก์ ํธ๋ก ๋ฐฐ์ฐ๋ ๋ฐ์ดํฐ์ฌ์ด์ธ์ค ๋ฐ์ดํฐ์ ์ถ์ฒ: Pima Indians Diabetes Database | Kaggle 4. ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ 4.1. DecisionTreeClassifier Dec
RandomForest ์์ ํธ๋ฆฌ์ ๊ฐ์๊ฐ 100๊ฐ๊ฐ ๊ธฐ๋ณธ๊ฐ์ด๋ผ๋ฉด ๊ทธ ๋ด๋ถ์์๋ ํธ๋ฆฌ๋ฅผ 100๊ฐ๋ฅผ ๋ง๋ค๊ธฐ ๋๋ฌธ์ DecisionTree๋ฅผ ์ฌ์ฉํ ๋๋ณด๋ค ์๋๊ฐ ๋ ๊ฑธ๋ฆฐ๋ค.: 5 fold ๋ cv ์กฐ๊ฐ 5๊ฐ๋ฅผ ์๋ฏธํ๋ฉฐ 5 candidates ๋ n_iter๋ฅผ ์๋ฏธํฉ๋๋ค.
0601 ์ค์ต: ๐ค ๋ชจ๋ธ์ ๋ง๋ค๊ณ ์๋ก์ด ๋ฐ์ดํฐ์ ์ ์ฉํด ๋ณด๊ธฐ ์ ์ ๊ทธ ๋ชจ๋ธ์ด ์ผ๋ง๋ ์ ๋ขฐํ ์ ์๋ ๋ชจ๋ธ์ธ์ง๋ฅผ ๋ฌผ์ด๋ณธ๋ค๋ฉด ๋ฌด์์ด๋ผ ๋ตํ ์ ์์๊น์? CV๋ ๋ชจ์๊ณ ์ฌ๋ฅผ ํ์ด์ ๋ต์ ๊ตฌํ๋ ๊ณผ์ ๊ณผ ์ ์ฌํ๋ค. >๋ฐ์ดํฐ๋ฅผ ์ธ์ฝ๋ฉ ํ๋ 2๊ฐ์ง ๋ฐฉ๋ฒ one-hot-en
ํฌ์๊ฐ์ ๋ํด ์ํซ์ธ์ฝ๋ฉ์ ํ๊ฒ๋๋ฉด ์ค๋ฒํผํ ์ด ๋ฐ์ํ ์๋ ์๊ณ ๋๋ฌด ํฌ์ํ ํ๋ ฌ์ด ์์ฑ๋๊ธฐ ๋๋ฌธ์ ๊ณ์ฐ์ ๋ง์ ์์์ด ํ์ํฉ๋๋ค.ํฌ์ํ ๊ฐ์ ์ฌ์ฉํ๊ณ ์ ํ๋ค๋ฉด 1) ์์ ํฌ์๊ฐ์ ๊ฒฐ์ธก์น ์ฒ๋ฆฌํ๋ฉด ์ํซ์ธ์ฝ๋ฉ ํ์ง ์์ต๋๋ค.2) ํฌ์ํ ๊ฐ์ "๊ธฐํ" ๋ฑ์ผ๋ก ๋ฌถ์ด์ค ์๋ ์
์์๋ธ์ด๋ ๋น์ทํ ๊ฐ๋ ์ผ๋ก๋ stacking์ด ์๋ค. ์ ๊ฒฝ๋ง์ ์ฐ๋ฉด ๋จธ์ ๋ฌ๋, ์ ๊ฒฝ๋ง์ ์ ์ฐ๋ฉด ๋ฅ๋ฌ๋๋ฅ๋ฌ๋์ ๋น์ ํ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ๋ ์ฑ๋ฅ์ด ๋ ์ข๋ค.์ ํ๋ฐ์ดํฐ์ ๋น์ ํ๋ฐ์ดํฐ์ ํ๋ฐ์ดํฐ: ํ๋ค์ค๋ก ๋ถ๋ฌ์์ ์ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํ ๋ฐ์ดํฐ๋น์ ํ๋ฐ์ดํฐ: ์ด๋ฏธ์ง, ์ค๋์ค; ์์ฑ๋ฐ์ดํฐ
: feature์ ๋ฒ์๋ฅผ ์กฐ์ ํด์ ์ ๊ทํ๐ก ๋ชฉํ: feature์ ๋ถ์ฐ๊ณผ ํ์คํธ์ฐจ๋ฅผ ์กฐ์ ํด์ ์ ๊ท๋ถํฌ ํ์ฑ๋ฅผ ๋๊ฒ ํ๋ ๊ฒ๐ค ์ค์ผ์ผ๋ง์ ์ ํ๋๊ฑธ๊น?1) ์๋ก ๋ค๋ฅธ ๋ณ์๋ผ๋ฆฌ ๋น๊ตํ๋ ๊ฒ์ด ํธ๋ฆฌ2) feature scaling ์์ด ์๋ํ๋ ์๊ณ ๋ฆฌ์ฆ์์ ๋ ๋นจ๋ฆฌ ์
๐ค ๊ธฐ์ ํต๊ณ๊ฐ์ผ๋ก ๋ฌด์์ ํ์ธ ํ ์ ์์๊น?๊ฒฐ์ธก์น์ด์์นํ์คํธ์ฐจ์ ์ฒด ํผ์ฒ์ ๋ํ ํน์ด์ ๐ค histogram์ ๊ทธ๋ ค๋ณด๋ ๋ชฉ์ ?์ ์ฒ๋ฆฌ๋ฅผ ํ๋ค๋ฉด ํ์ต๊ณผ ์์ธก์ ๋์์ด ๋ ๋งํ ํผ์ฒ์์ง๋์ด๋ง ๊ธฐ๋ฒ์ด ๋ฌด์์ด ์์์ง ๊ณ ๋ฏผํ๋ ๊ณผ์ ์์น ๋ฐ์ดํฐ์ ๋ถํฌ ํ์ธ, ์๋, ์ฒจ๋๋ฅผ ํตํด ๋
์๋์ ์ฒจ๋๋ 0์ ๊ฐ๊น์ธ์๋ก ์ ๊ท๋ถํฌ ํํ์ ๊ฐ๊น๋ค.Positive Skewness๋ ์ค๋ฅธ์ชฝ ๊ผฌ๋ฆฌ๊ฐ ์ผ์ชฝ๋ณด๋ค ๋ ๊ธธ ๋๋ฅผ ์๋ฏธํ๊ณ ํ๊ท (Mean)๊ณผ ์ค์์(Median)๊ฐ ์ต๋น๊ฐ(Mode)๋ณด๋ค ํฌ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.Negative Skewness ์ผ์ชฝ ๊ผฌ๋ฆฌ๊ฐ ์ค๋ฅธ์ชฝ๋ณด
๐ก ์ฌ์ดํท๋ฐ์ผ๋ก ์ธ์ฝ๋ฉํ๋ ๊ณผ์ ์ ๋ณต์กํ์ง๋ง numpy์ pandas์ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ์ฐ์ต์ ํด๋ณผ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค.โ๏ธ one-hot-encoding ํ train๊ณผ test์ ํ์ ์๊ฐ ์ผ์น ํ๋์ง ๊ผญ ์ฒดํฌ!!๐ค ์ ์ด๋ฒ ์ค์ต์์๋ Cross valida
22๋ 11์ 16์ผ ๊น์ค๋น ์ฐ์ฌ๋ ํน๊ฐ (์ฐ์ฌ๋ ๋ธ๋ก๊ทธ)๐ค ๋ฉํ ์ธ์ง๋?์๊ธฐ๊ฐ๊ดํ. ์์ ์ด ๋ญ ์๊ณ , ๋ญ ๋ชจ๋ฅด๋ ์ง๋ฅผ ์ ๋๋ก ์๊ณ ์๋ ๋ฅ๋ ฅ.๋ด๊ฐ ๋ญ ์๊ณ , ๋ญ ๋ชจ๋ฅด๋์ง๋ฅผ ์ธ์ ํ๋ ๊ฒ.๋ด ๋ฅ๋ ฅ์น๋ถํฐ ์ ๊ฒํ ๋ค์, ์ฑ์ฅํ ํฌ์ธํธ๋ฅผ ์ ํ๊ณ ์ง์คํ๋ ๊ฒ์ด ๊ฐ์ฅ ์ค์ํ๋ค.
โจ ๋ค์์ฃผ๋ถํฐ ๋ฅ๋ฌ๋์ ๋ฐฐ์ฐ๊ฒ ๋๋๋ฐ ๊ทธ ์ ์ ๋ฅ๋ฌ๋ ๋ง๋ณด๊ธฐ!์์คํจ์ (Loss Function) ์ฐธ๊ณ ์๋ฃ์์คํจ์(Loss function) : ํ ๊ฐ์ ๋ฐ์ดํฐ ํฌ์ธํธ์์ ๋์จ ์ค์ฐจ๋ฅผ ์ต์ํํ๊ธฐ ์ํด ์ ์๋๋ ํจ์๋น์ฉํจ์(Cost function) : ๋ชจ๋ ์ค์ฐจ๋ฅผ ์ผ๋ฐ
K-MOOC - ์ค์ต์ผ๋ก ๋ฐฐ์ฐ๋ ๋จธ์ ๋ฌ๋์ฒ๋ฆฌ ์๋: GPU computing > CPU computingโ ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ 4๊ฐ์ง ๊ตฌ์ฑ์์Environmnet(E) : ๊ฒฝํ(=Data)๋ฅผ ์ถ์ ํ๊ธฐ ์ํด ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ learning systemData(D) :
K-MOOC - ์ค์ต์ผ๋ก ๋ฐฐ์ฐ๋ ๋จธ์ ๋ฌ๋โ๏ธ ๊ฒ์ฆ์ ํตํด ์ต์ ์ ๋ชจ๋ธ์ ์ฐพ๋ ๊ฒ์ด ๊ฐ์ฅ ์ค์ํ๋ค.X = n \* pโ ๋ถ๋ฅ์ ํ๊ทโ Data ์ค๋น ๊ณผ์ 1) EDA: ๋ฐ์ดํฐ ๋ชจ๋ธ๋ง ํ๊ธฐ ์ ๋ณ์๋ณ ๊ธฐ๋ณธ์ ์ธ ํน์ฑ์ ํ์ํ๊ณ ๋ฐ์ดํฐ ๋ถํฌ์ ํน์ง ์ดํด2) ๊ฒฐ์ธก์น3) ๋ฐ์ดํฐ ํ
K-MOOC - ์ค์ต์ผ๋ก ๋ฐฐ์ฐ๋ ๋จธ์ ๋ฌ๋ Classification ๐ 3-1. ๋จธ์ ๋ฌ๋ ๋ถ๋ฅ ๋ชจ๋ธ๋ง โ Bias-Variance Tradeoff > ๋ชจ๋ธ์ ์ค์ฐจ = bias(๋ชจ๋ธ์ด ๊ฐ์ง๊ณ ์๋ ํธํฅ์ฑ) + variance(๋ชจ๋ธ์ ๋ณ๋์ฑ) ๐ก ๋ชจ๋ธ์ ๋ณต์ก๋
K-MOOC - ์ค์ต์ผ๋ก ๋ฐฐ์ฐ๋ ๋จธ์ ๋ฌ๋ 4. Model Learning with Optimisation ๐ 4-2. ๊ฒฝ์ฌํ๊ฐ๋ฒ ๊ฐ์ โ Gradient Descent (๊ฒฝ์ฌํ๊ฐ๋ฒ) : ์๊ณ ๋ฆฌ์ฆ ํ์ต ์ ์ฌ์ฉ๋๋ ์ต์ ํ ๋ฐฉ๋ฒ ์ค ํ๋. ์๊ณ ๋ฆฌ์ฆ ํ์ต ์ ๋ชฉํ๋
๐ค ์ ์กฐ์ ์์ ๋ฐ์ดํฐ ๊ณผํ๊ณผ ๋จธ์ ๋ฌ๋์ด ์ด๋ค ๋์์ ์ค ์ ์์๊น? 1) ํ์ง ๊ด๋ฆฌ ์ ํ์ ์์ฐ ๊ณผ์ ์ ์ํฅ์ ๋ฏธ์น ์ ์๋ ๋ค์ํ ๋ณ์๋ค์ ๋ชจ๋ธ ์์์ ๊ณ์ฐํ๊ณ ํต์ ํ ์ ์๋ค. ์ด๋ฅผ ํตํด์ ์์ ์ ์ธ ์์ฐ๊ณผ ๊ณต๊ธ์ด ๊ฐ๋ฅํด์ง๋ค. 2) ์๋ฐฉ ์ ๋น ์ฅ๋น๊ฐ ๊ณ ์ฅ๋๊ธฐ ์ ์
1) ์ ํ๋ (Accuracy)2) ์ค์ฐจํ๋ ฌ/ํผ๋ํ๋ ฌ (Confusion Matrix)3) ์ ๋ฐ๋ (Precision)4) ์ฌํ๋ฅ (Recall)5) F1 score6) ROC-AUC1) MSE (Mean Squared Error)2) RMSE (Root Mean Sq
Tensorflow๋ฅผ ์ด์ฉํด ํด๊ฒฐํ ์ ์๋ ๋ฌธ์ ๋ ์ง๋ํ์ต์ ๋ถ๋ฅ์ ํ๊ท๊ฐ ์๋ค. ๋ถ๋ฅ์ ํ๊ท ๋ฌธ์ ๋ฅผ ํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ๋ค์ด ์๋๋ฐ ๊ทธ ์ค Neural Network์ ๋ํด ์์๋ณด์.: ์ฌ๋์ ๋๋๊ฐ ๋์ํ๋ ๋ฐฉ๋ฒ์ ๋ชจ๋ฐฉํด์ ๊ธฐ๊ณ๊ฐ ํ์ตํ ์ ์๋๋ก
์ถ์ฒ: https://www.hira.or.kr/ebooksc/ebook_659/ebook_659_202109300534201190.pdfPrecision (์์ธก๊ฐ ๊ธฐ์ค): Positive๋ก ์์ธกํ ๋ชจ๋ ๊ฐ ์ค์ True Positive์ ๋น์จRecall (์ค
๐ก ์ฐธ๊ณ ํ ๋งํ ๋งํฌ๋ค But what is a neural network? | Chapter 1, Deep learning ์์ตํด๋ ๋ชจ๋ฅด๊ฒ ๋ แแ ตแธแ แ ฅแแ ตแผ, ๋จธ๋ฆฌ์์ ์ธ์คํจ ์์ผ๋๋ฆฝ๋๋ค. Fully Connected Network == Deep Neural Ne
๐ก Sigmoid๋ ์ถ๋ ฅ์ธต์์ ์ฃผ๋ก ์ฌ์ฉ์ถ๋ ฅ์ธต sigmoid ์ฌ์ฉ ์ flatten ์ ํตํด ์์ธก๊ฐ์ 1์ฐจ์์ผ๋ก ๋ณํ๐ค ๋ฐ์ด๋๋ฆฌ๋ฉด ๊ฒฐ๊ณผ๊ฐ 2๊ฐ ๋์์ผ ํ๋๊ฑฐ ์๋๊ฐ์?์ํํธ๋งฅ์ค๋ผ๋ฉด 2๊ฐ๊ฐ ๋์ค์ง๋ง, ๋ชจ๋ธ ์ปดํ์ผ ์ ๋ฐ์ด๋๋ฆฌ๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ์์ธก๊ฐ์ด ๊ฐ row๋น ํ
์ ๊ทํํ์https://school.programmers.co.kr/learn/courses/30/lessons/120826https://school.programmers.co.kr/learn/courses/30/lessons/120851re.sub(
Regression: ์ถ๋ ฅ์ธต์ ๋ฐ๋ก activation function์ ์ง์ ํด์ฃผ์ง ์๋๋ค. ๐ค Regression์์ activation function์ ์ง์ ํด์ฃผ์ง ์์ผ๋ฉด?default๊ฐ์ธ linear๊ฐ ์ฌ์ฉ๋๊ณ linear๋ ์ ๋ ฅ๋ฐ์ ๊ฐ์ ๊ทธ๋๋ก ๋ฐํํ๋ค. ๐ค
๐ค ReLU๋ฅผ ํต๊ณผํ ํผ์ฒ๋งต์ ๋ฌด์์ด๋ผ ๋ถ๋ฅผ๊น์?A: activation map๐ค MaxPooling ์ ํ๊ฒ ๋๋ฉด ์ด๋ป๊ฒ ๋ ๊น์?A: ๊ฐ๋ก์ธ๋ก์ ๊ธธ์ด๊ฐ ์ค๊ณ , ์ผ์ ํ ์์ญ์์ ๊ฐ์ฅ ํฐ ๊ฐ๋ง ๋จ์ต๋๋ค. ๋ํ ์ผํ ๋ถ๋ถ๊น์ง ํ์ต์ ํ์ง ์๊ธฐ ๋๋ฌธ์ ๊ณผ๋์ ํฉ์ ๋ฐฉ์งํ๊ณ
์ถ์ฒ: ๋ฉ์์ด ์ฌ์์ฒ๋ผ AI SCHOOL ๋ฐ์กฐ์ ๊ฐ์ฌ๋ ์์ ์๋ฃ 16๋ฒ์งธ ppt, p.5๐ค Conv, pooling์ ํ๋ ์ด์ ?์ด๋ฏธ์ง๋ฅผ ๋ฐ๋ก flatten ํด์ ๋ฃ์ผ๋ฉด ์ด๋ฏธ์ง์ ์ง์ญ์ ํน์ฑ ์ ๋ณด๋ฅผ ์์คํ๊ฒ๋๊ณ , ์ถ์ํ๋ฅผ ํ์ง ์๊ณ ๋ฐ๋ก ๊ณ์ฐ์ ํ๊ธฐ ๋๋ฌธ์ ๋นํจ์จ์
ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ํฉ์ฑ๊ณฑ ์ฐ์ฐ์ ํตํด์ย ์ด๋ฏธ์ง์ ํน์ง์ ์ถ์ถํ๋ฉฐ ํฌ๊ฒย ํฉ์ฑ๊ณฑ์ธต๊ณผ(Convolution layer)์ย ํ๋ง์ธต(Pooling layer)์ผ๋ก ๊ตฌ์ฑ: ํํฐ๋ ๊ฐ์ค์น๋ฅผ ์๋ฏธ. ํ๋์ ํํฐ๊ฐ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์ํํ๋ฉด์ ์ ์ฉ๋ ๊ฒฐ๊ณผ๊ฐ์ ๋ชจ์ผ๋ฉด ์ถ๋ ฅ ์ด๋ฏธ์ง๊ฐ ์์ฑ.ํ๋
CNN์ ์ฃผ๋ก ์ด๋ฏธ์ง์ ์ฃผ๋ก ์ฌ์ฉ์ด๋๊ณ ๋ฌผ๋ก ํ ์คํธ์๋ ์ฌ์ฉ์ ํฉ๋๋ค. ํ์ง๋ง ์ด๋ฏธ์ง์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.ํ ์คํธ ๋ถ์์ ํ ๋ ๋จธ์ ๋ฌ๋(Bag Of Words, TF-IDF), ๋ฅ๋ฌ๋(RNN) ์์๋ก ์ฌ์ฉํ ์์ ์ ๋๋ค.ํ ์คํธ ๋ถ๋ฅ, ํ ์คํธ๋ก ์ฃผ์์ ๊ฐ๊ฒฉ์ ์
max_df: ๋ฌธ์ ๋น๋๊ฐ ์ฃผ์ด์ง ์๊ณ๊ฐ๋ณด๋ค ๋์ ์ฉ์ด๋ ๋ฌด์ํ์ฌ, ๋ถ์ฉ์ด ์ฒ๋ฆฌ์ ํจ๊ณผ๊ฐ ์๋ค.min_df: ๋ฌธ์ ๋น๋๊ฐ ์ฃผ์ด์ง ์๊ณ๊ฐ๋ณด๋ค ๋ฎ์ ์ฉ์ด๋ ๋ฌด์ํ์ฌ, ํฌ๊ท๋จ์ด๋ ์คํ๋ฅผ ์ ๊ฑฐํ๋ ํจ๊ณผ๊ฐ ์๋ค.TF(term frequency): ํ ๋ฌธ์ฅ์์ ๋ฑ์ฅํ๋ ๋จ์ด์ ๋น
๐ก ์ค์ต ๋ชฉ์ : KoNLPy๋ก ํ๊ตญ์ด ํํ์ ๋ถ์๊ธฐ๋ฅผ ์ฌ์ฉํด ๋ณด๊ธฐ์ ๊ทํ: ์ผ๊ด๋๊ฒ ์ ์ฒ๋ฆฌ ํด์ ๋ถํ์ํ๊ฒ ํ ํฐ์ ์์ฑํ์ง ์๊ณ ๊ฐ์ ์๋ฏธ๋ฅผ ๋ถ์ฌํ๊ฒ ๋ฉ๋๋ค.๋ํ์ ์ธ ์์ฐ์ด์ฒ๋ฆฌ ๋๊ตฌ์ธ NLTK, Spacy๋ ํ๊ตญ์ด๋ฅผ ์ง์ํ์ง ์์ต๋๋ค. ์์ด๋ฅผ ์ฌ์ฉํ๋ค๋ฉด ํด๋น๋๊ตฌ๋ฅผ ์ฌ์ฉ
๐๐ปโโ๏ธ ์ง๋ฌธ Q: A: โ๏ธ TIL ์ฌ์ค(Fact): RNN์ ๋ํด ๋ฐฐ์ ๋ค. ๋๋(Feeling): ๊ฐ์๊ธฐ ์ด๋ ค์์ก๋ค. ๊ตํ(Finding): ๋ณต์ตํ์ ๋ณต์ต!
แแ ขแจแแ ฎแซแแ ตแแ ฎแฏแแ งแแ ตแฏแแ ก แแ ฆแแ ตแแ ฅ แแ ฎแซแแ ฅแจแแ ณแฏ แแ ฑแแ กแซ แแ ฎแผแแ ณแธ SQL ๋ ธํธ ์ ๋ฆฌ: ๊ด๋ จ์ฑ์ด ์๋ ๋๊ฐ ์ด์์ ํ ์ด๋ธ์ ์ด์ด ๋ถ์ฌ ์ ๋ณด๋ฅผ ์ถ๋ ฅํ ๋ ์ฌ์ฉ=> ์ค๋ณต๋๋ ์ ๋ณด๋ค์ ๊ณต๊ฐ์ ๋ญ๋นํ์ง ์๊ณ ํจ์จ์ ์ผ๋ก ์ ์ฅํ๊ธฐ ์ํ ๋ฐฉ๋ฒ๐ก INNER JO
Tensorflow ๊ณต์๋ฌธ์ - ์๊ณ์ด ์์ธก๊ธฐ์กด์๋ ๋ฐ์ดํฐ๋ฅผ ๋๋ ๋ ์์ด์ ๋๋์์ต๋๋ค. ๊ทธ๋ฐ๋ฐ ์๊ณ์ด ๋ฐ์ดํฐ์์๋ ์์ด์ ๋๋์ง ์๊ณ ์์๋ฅผ ๊ณ ๋ คํด์ ๋๋๊ฒ ๋ฉ๋๋ค.์์ฐ์ด ํ ์คํธ๋ฅผ ์ํ์ค ์ธ์ฝ๋ฉ ํ๋ ๊ฒ์ฒ๋ผ ์ธ์ด๋ ๋งฅ๋ฝ์ด ์๊ธฐ ๋๋ฌธ์ ์์ผ๋ฉด ์๋ ์๋ฏธ๋ฅผ ์์ด๋ฒ๋ฆด ์
๐ค ์ด ๊ทธ๋ํ ์ด๋ป๊ฒ ํด์ํ ์ ์์๊น์?๊ฐ์ด 1๊ฐ๊น์ด ๋ถ๋ถ์ ์ ๋ ค์๊ณ ์ด์์น๊ฐ ์๋ค.๐ค ์ฃผ๋ฌธ์์ ๊ฒฐ์ ํ ์ด๋ธ์ด ์ค ๋น์ฆ๋์ค์์๋ ๋ฐ๋ก ๋์ด ์๊ธฐ๋ ํฉ๋๋ค. ๊ฒฐ์ ํ ์ด๋ธ์๋ ๋ฌด์์ด ์์๊น์?๊ณ ๊ฐID, ์ฃผ๋ฌธ์ID, ์ด๊ฒฐ์ ๊ธ์ก, ๊ฒฐ์ ์๋จ, ๊ฒฐ์ ์ผ์, PG์ฌ์น์ธ๋ฒํธ, ์
๐ก RFM ๋ถ์: ๊ฐ์น์๋ ๊ณ ๊ฐ์ ์ถ์ถํด๋ด์ด ์ด๋ฅผ ๊ธฐ์ค์ผ๋ก ๊ณ ๊ฐ์ ๋ถ๋ฅํ ์ ์๋ ๋ถ์ ๋ฐฉ๋ฒ๊ตฌ๋งค ๊ฐ๋ฅ์ฑ์ด ๋์ ๊ณ ๊ฐ์ ์ ์ ํ๊ธฐ ์ํ ๋ฐ์ดํฐ ๋ถ์ ๋ฐฉ๋ฒ์ธ๊ฐ์ง ์งํ ๋๋ ์ฐจ์์ ๋ฐ๋ผ ๊ฐ ๊ณ ๊ฐ์ ๋ถ์Recency - ๊ฑฐ๋์ ์ต๊ทผ์ฑ: ๊ณ ๊ฐ์ด ์ผ๋ง๋ ์ต๊ทผ์ ๊ตฌ์ ํ๋๊ฐ?๐๐ป
๊ณ ๊ตฌ๋ง ๊ฐ๊ฒฉ ์์ธก by Prophet ์ฒซ ๋ฒ์งธ ์๋ (MAE: 2251.908) ๋ ๋ฒ์งธ ์๋ (MAE: 2251.771