๐๏ธ ๋ฌธ์ ์ ์ ๋ฐ ๋ฐ์ดํฐ ์ค๋น
- ์ฌ๋ฐ๋ฅธ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ๊ธฐ ์ํด EDA(ํ์์ ๋ฐ์ดํฐ ๋ถ์) ์์
- ๋ช ํํ ๋ฌธ์ ์ ์๊ฐ ์ค์!
- ์บ๊ธ์ ํ์ฉํ์ฌ ๋ชจ๋ธ ์ ํ์ ์ฐธ๊ณ ํ๊ธฐ
- ๋ฐ์ดํฐ ๊ดํ ๊ณ ๋ฏผ ๋ฐ๋ณตํ๊ธฐ
๐ ํ์ต
- SOTA(state-of-the-art;์ต๊ณ ์ ์ฑ๋ฅ) ๋ชจ๋ธ ํ์ฉ
- ๋ชจ๋ธ ์ ํ์ ๋ด๋ถ์์์ ์ธ๋ถ์์ ๋ณตํฉ์ ์ผ๋ก ์กฐ์ ํด์ผ ํจ
- ๋ชจ๋ธ ์ ํ ํ ํ์ดํผํ๋ผ๋ฏธํฐ ์กฐ์ ๋จ๊ณ ํ์
๐ ์ถ๋ก ๋ฐ ํ๊ฐ
- ์ถ๋ก : ํ์ต๋ ๋ชจ๋ธ๋ก๋ถํฐ ์ ๋ต์ด ์๋ ๋ฐ์ดํฐ์ ๋ํด ์ ๋ต์ ๋ง๋๋ ํ์
๐ฐ ์ฉ์ด : ๋ฐ์ดํฐ ์ค๋น
- ํด๋์ค ๋ถ๊ท ํ(Class Imbalance)
ํด๋์ค๊ฐ ๋ถ๊ท ํํ๊ฒ ๋ถํฌ
์ฌ๋ก : ์ํ ๊ฑฐ๋ ์ฌ๊ธฐ, ํฌ๊ท ์ง๋ณ, ๊ธฐ๊ณ ๋ถ๋์
์ด์ ํ์ง(Anomaly Detection)- ๊ณผ์ํ์ง๊ณผ ๊ณผ๋ํ์ง
๊ณผ์ํ์ง(UnderSampling) : ๋ค๋ฅธ ํด๋์ค์ ๋นํด ์๋์ ์ผ๋ก ๋ง์ด ๋ํ๋์๋ ํด๋์ค์ ๊ฐ์ ์ค์ด๋ ๊ฒ, ๋ฐ์ดํฐ๊ฐ ์ง์ง ๋ง์ ๋ ๊ฐ๋ฅ
๊ณผ๋ํ์ง(OverSampling) : ๊ฐ์๊ฐ ์ ์ ํด๋์ค ๋ณต์ (SMOTE ๋ฑ์ ๊ธฐ๋ฒ ํ์ฉ), ๊ณผ์ํ์ง๋ณด๋ค ๋ง์ด ์ฌ์ฉ๋จ- ํ๊ท(Regression)
์ฌ๋ฌ๊ฐ์ ํน์ง์ ํตํด ์ฐ์์ ์ธ ์ซ์๋ก ์ด๋ฃจ์ด์ง ์ ๋ต ์์ธก
0๊ณผ 1์ ์์ธกํ๋ ๋ก์ง์คํฑ ํ๊ท
์ฌ๋ก : ํ๋ฒ๊ฑฐ ๊ฐ๊ฒฉ, ์ํ ๊ด๊ฐ ์, ์ถ๊ตฌ ์ ์ ์ฐ๋ด, ์ฃผ์ ๊ฐ๊ฒฉ ๋ฑ- ๋ถ๋ฅ(Classification)
๋ฏธ๋ฆฌ ์ ์๋ ์ฌ๋ฌ ํด๋์ค ์ค ํ๋ ์์ธก
- ์ด์ง๋ถ๋ฅ(Binary Classification)
- ๋ค์ค๋ถ๋ฅ(Multi-class Classification)
- ๋ค์ค ๋ ์ด๋ธ ๋ถ๋ฅ(Multi-label Classification)
์ฌ๋ก : ํ๋ฒ๊ฑฐ ์ข ๋ฅ, ์ซ์ ํ๋ณ, ์ผ๊ตด ์ธ์ ๋๋ ์ข ๋ฅ ๊ตฌ๋ถ ๋ฑ- ์ ํซ ์ธ์ฝ๋ฉ(One-Hot Incoding)
ํ๋์ ํด๋์ค๋ง 1์ด๊ณ ๋๋จธ์ง ํด๋์ค๋ ์ ๋ถ 0์ธ ์ธ์ฝ๋ฉ- ๊ต์ฐจ๊ฒ์ฆ(Cross-Validation)
๋ชจ๋ธ์ ํ๋น์ฑ ๊ฒ์ฆ(๊ณผ๋์ ํฉ ๋ฐฉ์ง)
-> ํ์ต ๋ฐ์ดํฐ : ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ
-> ๊ฒ์ฆ ๋ฐ์ดํฐ : ๋ชจ๋ธ์ ๊ฒ์ฆ์ ์ํด ์ฌ์ฉ, ์ฃผ๋ก ํ์ต ๋์ค์ ์ฌ์ฉ
-> ํ ์คํธ ๋ฐ์ดํฐ : ๋ชจ๋ธ์ ์ต์ข ์ฑ๋ฅ ํ๊ฐ์ ์ฌ์ฉ
ํ ์คํธ ๋ฐ์ดํฐ๋ ์ต์ข ํ๊ฐ ์ด์ ์๋ ์ ๋๋ก ์ฌ์ฉํ๋ฉด ์๋จ
๐ฐ ์ฉ์ด : ํ์ตํ๊ธฐ
- ํ์ดํผํ๋ผ๋ฏธํฐ(Hyperparameter)
๊ฒฝํ์ ์ํด ๊ฒฐ์ ๋๋ ์์
ํ์ต๋ฅ , ๋ฐฐ์น ํฌ๊ธฐ, ์ํญ ๋ฑ
์ ํฉํ ๊ฐ์ ์ฐพ๊ธฐ ์ํด ๋ฐ๋ณต์ ์ธ ์คํ๊ณผ ๋ง์ ์๊ฐ ํฌ์๊ฐ ํ์-> ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋- ๋ฐฐ์น(Batch), ๋ฐฐ์นํฌ๊ธฐ(Batch Size)
- ์ง๋ ํ์ต(Supervised Learning)
ํ์ต ๋ฐ์ดํฐ์ ์ ๋ต ํฌํจ
ํ๊ท, ๋ถ๋ฅ- ๋น์ง๋ ํ์ต(UnSupervised Learning)
ํ์ต ๋ฐ์ดํฐ์ ์ ๋ต์ด ํฌํจ๋์ด ์์ง ์์ ๊ฒ
ํด๋ฌ์คํฐ๋ง(Clustering)- ์์ฑ๋ชจ๋ธ(Generative Model)
์ฌ๋ก : ํ๋ฒ๊ฑฐ ์ฌ์ง์ ์ฃผ๊ณ ๋ชจ๋ธ์๊ฒ ๋ค์ ํ๋ฒ๊ฑฐ ์ฌ์ง ๊ทธ๋ ค๋ณด๋ผ๊ณ ํ๋ ๊ฒ- ๊ฐํ ํ์ต(Reinforcement Learning)
์์ด์ ํธ๊ฐ ์ฃผ์ด์ง ํ๊ฒฝ์ ๋ํด ์ด๋ ํ ํ๋์ ๊ฒฐ์ ํ๊ณ ์ด๋ฅผ ํตํด ์ป๋ ๋ณด์์ผ๋ก ํ์ต- ๊ณผ๋์ ํฉ(Overfitting)
๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง ๋ชปํ๋ ๊ฒฐ๊ณผ
๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋จ์ํ ์ธ์ ๋ค๊ณ ํํ
๋ชจ๋ธ์ด ๋ฌธ์ ๋ฅผ ์ผ๋ฐํ ํ์ง ๋ชปํ์
- ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ค์ํ๊ฒ, ๋ง์ด ์์ง
- ์ ๊ทํ(Regularization)๋ฅผ ์ฌ์ฉ -> ๊ท์น ๋จ์ํ๊ฒ
- ํธ๋ฆฌํ์น์ฆ๋ฒ๊ฑฐ์ ๊ฐ์ ์ด์์น ์ ๊ฑฐ(๋ฐ์ดํฐ๊ฐ ๋ง์ผ๋ฉด ์ข์ง์์ ๋ฐฉ๋ฒ)- ๊ณผ์์ ํฉ(Underfitting)
๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ถฉ๋ถํ ํ์ตํ์ง ์์์ ๋ชจ๋ ์ธก๋ฉด์์ ์ข์ง์์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒฐ๊ณผ
๋ชจ๋ธ์ ์์ง ์ฑ๋ฅ์ด ๊ฐ์ ๋ ์ฌ์ง๊ฐ ์์
- ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ค์ํ๊ฒ, ๋ง์ด ์์ง
- ๋ ๋ณต์กํ ๋ชจ๋ธ ์ฌ์ฉ
- ๋ชจ๋ธ์ ์ถฉ๋ถํ ํ์ต
๐ฐ ์ฉ์ด : ํ๊ฐํ๊ธฐ
- ํผ๋ํ๋ ฌ(Confusion Matrix)
๋ชจ๋ธ์ ์ฑ๋ฅ ํ๊ฐ์ ์ฌ์ฉ
์ ๋ต(True), ์ค๋ต(False)- ์ ํ๋(Accuracy)
์ ์ฒด ๋ฐ์ดํฐ ์ค์์ ์ค์ ๋ฐ์ดํฐ์ ์ ๋ต๊ณผ ๋ชจ๋ธ์ด ์์ธกํ ์ ๋ต์ด ๊ฐ์ ๋น์จ
ACC = TP+TN / TP+TN+FP+FN
๋ฐ์ดํฐ๊ฐ ๋ถ๊ท ํํ ๋ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ, ์๋ชป๋ ์งํ๋ก์ ์ฌ์ฉ ๋ ์ ์์- ์ ๋ฐ๋(Precision), ์ฌํ์จ(Recall)
์ ๋ฐ๋ : True๋ผ๊ณ ์์ธกํ ์ ๋ต ์ค ์ค์ ๋ก True์ธ ๋น์จ TP / TP+FP
์ฌํ์จ : ์ค์ ๋ฐ์ดํฐ๊ฐ True์ธ ๊ฒ ์ค์์ ๋ชจ๋ธ์ด True๋ผ๊ณ ์์ธกํ ๋น์จ TP / TP+FN- F1-Score
์ ๋ฐ๋์ ์ฌํ์จ์ ์ค์์ฑ์ด ๊ฐ๋ค๊ณ ๊ฐ์ ํ๊ณ . ๋ ์งํ์ ์กฐํํ๊ท ์ผ๋ก ์๋ก์ด ์งํ๋ฅผ ์ ๊ณต
F1= 2 x precision * recall / precision + recall- ROC ๊ณก์
Binary Classifier System(์ด์ง ๋ถ๋ฅ ์์คํ )์ ๋ํ ์ฑ๋ฅ ํ๊ฐ ๊ธฐ๋ฒ
๊ธฐ์กด ์ฌ๋ก์์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ ๋จผ์ ์ ์ฉํด๋ณด๋ ๊ฒ๋ ํ๋ก์ ํธ๋ฅผ ์ฑ๊ณต์ผ๋ก ์ด๋ ์ ์์ ~!~!~