0. ํผ์ ํธ๋ก ์ด๋? ํผ์ ํธ๋ก ์๊ณ ๋ฆฌ์ฆ์ Frank Rosenblatt์ด 1957๋ ์ ๊ณ ์ํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ฅ๋ฌ๋์ ๊ธฐ์์ด ๋๋ค ํผ์ ํธ๋ก ์ ๋ค์์ ์ ํธ๋ฅผ ์ ๋ ฅ๋ฐ์ ํ๋์ ์ ํธ๋ฅผ ์ถ๋ ฅํ๋ค ํผ์ ํธ๋ก ์ ์ถ๋ ฅ
๋ค์ํ NLP subtasks ์ SOTA model๋ค์ ๋ฆฌ์์นํด๋ณด๋ ๊ณผ์ ๋ฅผ 4์ผ์ ๊ฑธ์ณ ์งํํ๋๋ฐ, ๋ชจ๋ ๋ค๋ฅธ ๋ชจ๋ธ์ด์์ง๋ง Transformer model์ ํฌํจํ ๊ฒฝ์ฐ
KLUE-STS ๋ฒค์น๋งํฌ๋ฅผ ์ฌ์ฉํ ์ผ์ด ์์ด์, ์ฝ๊ฐ์ ๊ณต๋ถ์ ํจ๊ป ์ง์ ๋ค์ด๋ก๋ ๋ฐ์๋ณด๊ณ ๊ตฌ์กฐ๋ฅผ ์ดํด๋ณด๋ ์๊ฐ์ ๊ฐ์ก๋ค ๊ณต๋ถํ๊ธฐ ์์ ์๋ reference๋ฅผ ์ฐธ๊ณ ํด ๊ณต๋ถํ์์ ๋ฐํ๋๋ค STS task ์ธ์๋ KLUE ๋ฒค์น๋งํฌ ์ ๋ถ๋ถ์ ์ฝ๊ฒ ์ค๋ช ํด์ฃผ๋ ๊ณต๋ถ์ ๋ง์
Pre-training ์ฌ์ ํ์ต ๋ชจ๋ธ์ด๋ ๊ธฐ์กด์ ์๋น์ด(Xavier) ๋ฑ ์์์ ๊ฐ์ผ๋ก ์ด๊ธฐํํ๋ ๋ชจ๋ธ์ ๊ฐ์ค์น๋ค์ ๋ค๋ฅธ ๋ฌธ์ (task)์ ํ์ต์ํจ ๊ฐ์ค์น๋ค๋ก ์ด๊ธฐํํ๋ ๋ฐฉ๋ฒ์ด๋ค.
์ค๋ ์กธ์ ์ฅ ๋ฐ์์๋๋, ์ง์ง ์ทจ์ค์์ด ๋์๋ค๋ ์๊ฐ์ ... ์ ๋ถ R&D ๊ณผ์ ๋ฅผ ์ํํ๋ ML/DL ์ฐ๊ตฌ์ง์ผ๋ก ๋ฉด์ ์ ๋ณธ์ง๋ 3์ฃผ์ ๋ ์ง๋ฌ๊ณ , ๊ฒฐ๊ณผ๋ ๊ฐ์ฌํ๋ ํฉ๊ฒฉ์ด๋ค ๋ฉด์ ๋ฌธ๋ต์ ์ ๋ฆฌํด๋
NLP ๊ณต๋ถ๋ฅผ ์์ํ๋ฉด์ scikit learn framework ๋ฅผ ๋ง์ด ์์ ๋ฏ ํ์ฌ, ๋ณต์ต์ ์์ํ์ต๋๋ค. ์๋๋ ์ค๋๋ง์ scikit learn ์ฌ์ฉํ๋ฉฐ, ์ธํด๋ทฐ ๋๋น๋ฅผ ์ํ ML ๊ฐ๋ ๋ ๊ฐ์ด ์ ๋ฆฌํ ๋ ธํธ๋ถ์ด ๊ฒ์๋ github link ์ ๋๋ค.
์ ์ฌ ๋ณ์(latent variable)๋ ๊ตฌ์ฑ๊ฐ๋ (Construct)์ด ์ง์ ์ ์ผ๋ก ๊ด์ฐฐ๋๊ฑฐ๋ ์ธก์ ์ด ๋์ง ์๋ ๋ณ์๋ฅผ ์๋ฏธํ๋ค.์ฌํ๊ณผํ์ ์ผ๋ก ์ ์ฌ๋ณ์ ์์ฒด๋ก ์ ์ฒด ํต๊ณ๋์ ์ธก์ ํ๋ ๊ฒ์ ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์, ๊ด์ธก๋ณ์(observed variable)์ ์ํด ๊ฐ์ ์ ์ผ๋ก
๋ฅ๋ฌ๋์์ convolutional neural network (CNN, or ConvNet)์ ๊ฐ์ ์ ๊ฒฝ๋ง(ANN)์ ํ ์ข ๋ฅ๋ก, ์๊ฐ ์ด๋ฏธ์ง ๋ถ์์ ์ฃผ๋ก ์ฌ์ฉ๋๋ค.CNN ๋ํ Shift ๋ถ๋ณ ๋๋ Space ๋ถ๋ณ ๊ฐ์ ์ ๊ฒฝ๋ง์ธSIANN์ผ๋ก๋ ์๋ ค์ ธ ์๋ค. ์ด๋ co
CNN์ ์ด์ฉํ ๋ถ๋ฅ๊ธฐ(classification)๋ ์ผ๋ฐ ๋ด๋ด ๋คํธ์ํฌ์ฒ๋ผ ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๋ถ๋ฅ ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ ฅ๋ค๋ง CNN์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๊ฐ ๊ฐ์ง๋ ํน์ฑ์ ํ์ฉํ์ฌ ๋ ์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ์ฌ, ๋์ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฐ์ ์ธ ์ ๊ฒฝ๋ง(MLP)์ ์ด์ฉํด ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ ๋