๋ํ ์์คํ
์ ์ฌ์ฉ์์ ํ์ฌ goal์ ์ดํดํ๊ธฐ ์ํ์ฌ, intent detector
๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ์ฉ์์ ๋ฐํ๋ฅผ ๋ถ๋ฅํ๋ค.
โ ์๋ก์ด ๋๋ฉ์ธ๊ณผ task๋ฅผ ์ง์ํ๊ธฐ ์ํด intent detector
๋ฅผ ํ์ฅํ๋ ์ผ์ ์ด๋ ต๊ณ ์์์ด ๋ง์ด ์๋ชจ๋๋ ๊ณผ์ ์ด๋ค.
intent detector
๋ฅผ ๋ฐฐ์นํ๊ธฐ์ ์ด๋ ค์์ด ์๋ค.low-data scenario
์ํฉ์์, ํจ๊ณผ์ ์ผ๋ก ์ธํ
ํธ๋ฅผ ์ธ์ํ ์ ์์ด์ผ ํ๋ค.๋ถ์กฑํ ๋๋ฉ์ธ ๋ฐ์ดํฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ฏธ๋ฆฌ ํ์ต๋ ์ธ์ฝ๋๋ฅผ ์ด์ฉํ์ฌ ์ ์ดํ์ต์ ํ๋ ๋ฐฉ์์ด ๋์ธ์ด๋ค.
BERT
์ ๊ฐ์ ๋ณดํธ์ ์ธ ๋ฌธ์ฅ ์ธ์ฝ๋๋ฅผ ๊ทธ๋๋ก ์ ์ฉํ๋ ๊ฒ์ ์ต์ ์ด ์๋ ์ ์๋ค.
conversational pretraining
๋ณด๋ค ๋ ํจ๊ณผ์ ์ผ ์ ์๋ค.BERT
๋ BERT
์ ๋ณํ ๋ชจ๋ธ์ fine-tuning ํ๋ ๊ฒ์ ๋ชจ๋ธ ์ ์ฒด๋ฅผ ๋๋ฉ์ธ์ ์ ์(adaptation)์ํค๊ธฐ ๋๋ฌธ์ ์์์ ์๋ชจ๊ฐ ๋ง์ด ํ์ํ ์์
์ด๋ค.few-shot scenario
์์ ์ค๋ฒํผํ
(overfitting)์ ๋ฐ์์ํฌ ์ ์๋ค.USE(Universal Sentence Encoder)
๋ ConveRT
์ ๊ฐ์ ๋ฌธ์ฅ ์์ ๋ชจ๋ธ๋งํ๋ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ Dual sentence encoder
๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ค.
Advantages
USE(Universal Sentence Encoder)
์ ConveRT
๊ธฐ๋ฐ intent detector
๊ฐ BERT
๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ ๊ฒฝ์ฐ๋ณด๋ค few-shot scenario
์์๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.few-shot scenario
์์ ์ค๋ฒํผํ
๋๊ฑฐ๋ ์ต์ ์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ง ๋ชป ํ ์ ์๋ค.Conversational pretraining
๋ ๊ธฐ์กด์ ์ธ์ด ๋ชจ๋ธ ๊ธฐ๋ฐ ํ์ต๋ณด๋ค dialouge act prediction
๋ next utterance generation
์ ๊ฐ์ ๋ํ ํ์คํฌ์ ๋ ์ ๋ง๋๋ค.Dual
๋ชจ๋ธ์ ์
๋ ฅ ๋ฌธ์ฅ/๋ฌธ๋งฅ์ ๋์ํ๋ ์๋ต๊ณผ์ ๊ด๊ณ๋ฅผ ํ์ตํ๋ dual-encoder
๊ตฌ์กฐ์ด๋ค. response selection task
๋ก ํ์ตํ USE(Universal Sentence Encoder)
์ ConveRT
์ ์ด์ ์ ๋ง์ถ์๋ค.USE
์ ConveRT
๋ก ์ธ์ฝ๋ฉํ ๊ณ ์ ๋ฌธ์ฅ ํํ ์๋ฒ ๋ฉ(fixed sentence representation)์ ์ฌ์ฉReLU activation
์ ๊ฐ์ง ๋จ์ผ ์๋์ธต์ธ Multi-Layer Perceptron(MLP) layer ์์ multi-class ๋ถ๋ฅ๋ฅผ ์ํ ์ํํธ๋งฅ์ค ์ธต์ ์๋๋ค.USE+ConveRT
), ์ํธ๋ณด์์ ์ ๋ณด๋ฅผ ํฌ์ฐฉํ์ฌ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คBERT
๋ pretraining์ ๋ชฉ์ ์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์, fine-tuning์ ํ BERT-TUNED
๋ชจ๋ธ์์ ์๋ฏธ์๋ ์ฑ๋ฅ์ ํ์ธํ ์ ์์BERT-TUNED
๋ณด๋ค dual encoders๋ฅผ ์ฌ์ฉํ ๋ชจ๋ธ์ ๋ ๋์ ์ฑ๋ฅ์ ํ์ธํ ์ ์์few-shot scenario
์์ ์ฌ์ฉํ๋ intent detector๋ validation set์ ๋ํ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋๊ณผ ๋ฌด๊ดํ๊ฒ off-the-shelf
๋ฐฉ์์ผ๋ก ์ฌ์ฉํ ์ ์์ด์ผ ๋ฐ๋์งํ๋ค.
ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์ ๋จ๊ณ์ ์ผ๋ก ๋ณ๊ฒฝํ๋ฉฐ ์ฑ๋ฅ ํ ์คํธ
few-shot scenario
์์ BERT-FIXED
๋ชจ๋ธ์ ์ต๊ณ ์ฑ๋ฅ๊ณผ ํ๊ท ์ฑ๋ฅ์ ํธ์ฐจ๊ฐ ํฐ ์์๋ผ์ด์ด๋ ๊ด์ฐฐ๋จ few-shot scenario
์์ ํ์ต ๋ฐ ํ๊ฐ ์์ ์๊ฐUSE
์ ConveRT
์ ๊ฐ์ dual encoder ๋ชจ๋ธ๋ก ์ธํ
ํธ ๋ถ๋ฅ ํ์คํฌ์์ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์คBERT-based classifier
๋ฅผ ๋งค๋ฒ ์ ์์ํค๋ ๊ฒ๋ณด๋ค ์ป๋ ์ด๋์ด ํฌ๋ค.