๐ฏ๊ฐ์
โ Introduction
Two common approaches for data-driven dialouge modeling
NLU: Intent classification and Entity recognition
๋ํ ์์คํ
์ NLU๋ ์ผ๋ฐ์ ์ผ๋ก intent classification
๊ณผ entity recognition
์ ๋ ๊ฐ์ง sub-task๋ฅผ ๋งํ๋ค.
๋จ์ํ ์์คํ
์์ ๋ ๊ฐ์ task๋ฅผ ๋ณ๊ฐ๋ก ๋ชจ๋ธ๋งํ๋ฉด error propagation์ ์
์ํฅ์ ๋ฐ๋๋ค.
์ด์ ๊ฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ค์ค ํ์คํฌ๋ฅผ ์ฒ๋ฆฌํ๋ ๋จ์ผ ์ํคํ
์ฒ(single multi-task architecture)๋ฅผ ๊ตฌ์ฑํ์ฌ, ๋ ๊ฐ์ ํ์คํฌ ๊ฐ์ ์ํธ์์ฉ์ ์ด์ ์ ์ป์ด์ผ ํ๋ค.
์ต๊ทผ์ ์ฐ๊ตฌ๋ค์์ ๋๊ท๋ชจ pre-trained ๋ชจ๋ธ์ด ๋์ ์ฑ๋ฅ์ ๋ณด์์ง๋ง, ์ด์ ๊ฐ์ ๋ชจ๋ธ์ ์ํ pre-training ๋ฐ fine-tuning์ ํ์ต ๋น์ฉ์ ์๋นํ ๋๋ค.
๋ณธ ์ฐ๊ตฌ๋ intent classification
๊ณผ entity recognition
๋ฅผ ์ํ ์๋ก์ด ๋ค์ค-ํ์คํฌ ์ํคํ
์ฒ(multi-task architecture)๋ฅผ ์ ์ํ๋ค.
์ด ์ํคํ
์ฒ์ ์ฃผ์ ํน์ง์ ์๋์ ๊ฐ๋ค.
- Sparse feature + Dense feature
์ธ์ด ๋ชจ๋ธ์ pre-trained ๋จ์ด ์๋ฒ ๋ฉ(dense)๊ณผ character level n-gram ํน์ง๊ณผ ์กฐํฉํ ์ ์๋ค.
DIET sparse features๋ง ์ฌ์ฉํ์ฌ๋ ๋ณต์กํ NLU ๋ฐ์ดํฐ์
์ ๋ํ์ฌ SOTA(state of the art) ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๊ณ , pre-trained ํน์ง์ ์ถ๊ฐํ๋ฉด ์ฑ๋ฅ์ด ๋์ฑ ๊ฐ์ ๋์๋ค.
๐จ DIET architecture
DIET ์ํคํ
์ฒ๋ฅผ ๊ตฌ์ฑํ๋ ํต์ฌ ์์๋ ์๋์ ๊ฐ๋ค.
Featurization
- ์
๋ ฅ ๋ฌธ์ฅ์ ํ์ดํ๋ผ์ธ์ ๋ฐ๋ผ word ๋๋ sub-word ํ ํฐ sequence๋ก ๋ค๋ฃฌ๋ค.
- ๊ฐ ๋ฌธ์ฅ ๋์๋
CLS
ํ ํฐ์ ์ถ๊ฐํ๋ค.
- ๊ฐ ํ ํฐ์ sparse feature๋ก ํน์งํ(featureize)๋๋ฉฐ, ์ ํ์ ์ผ๋ก dense feature๋ก๋ ํน์งํ ๋๋ค.
- Fully connected layer๋ฅผ ํต๊ณผํ sparse feature์ dense feature๊ฐ concatenate ๋์ด
Transformer
๋ก ์
๋ ฅ๋๋ค.
- Sparse feature
- ํ ํฐ ๋ ๋ฒจ์
one-hot encoding
๋๋ multi-hot encodings of character n-grams
- Character n-grams์ ๋ถํ์ํ ์ ๋ณด๋ฅผ ๋ง์ด ํฌํจํ๊ณ ์์ด์, ์ค๋ฒํผํ
(overfitting)์ ํผํ๊ธฐ ์ํด ๋๋กญ์์(dropout)์ ์ ์ฉํ๋ค.
- Dense feature
ConveRT
, BERT
, GloVe
์ ๊ฐ์ pre-trained ๋จ์ด ์๋ฒ ๋ฉ์ ์ฌ์ฉ
CLS
ํ ํฐ์ ๊ฒฝ์ฐ, ConveRT
์ ๋ฌธ์ฅ ์๋ฒ ๋ฉ,BERT
์ CLS
ํ ํฐ, GloVe
์ ํ ํฐ ์๋ฒ ๋ฉ ํ๊ท ๊ฐ์ผ๋ก ์ด๊ธฐ ์ค์ ํ๋ค.
- 2-layer transformer๋ก ๋ฌธ์ฅ์ ์ธ์ฝ๋ฉํ๋ค
- Transformer layer์ ์
๋ ฅ์ ์ฐจ์์ ๋์ผํ๊ฒ ๋ง์ถ์ด์ผ ํ๋ฏ๋ก, concatenateํ ์
๋ ฅ feature๋ฅผ ๋ ๋ค๋ฅธ fully connected layer๋ฅผ ํต๊ณผ์ํจ๋ค.
Named entity recognition
- ๊ฐ์ฒด ๋ ์ด๋ธ ์ํ์ค๋ transformer ์์ CRF layer๋ฅผ ํต๊ณผํ์ฌ ์์ธก๋๋ค.
Intent classification
- Transformer๋ฅผ ํต๊ณผํ
__CLS__
ํ ํฐ์ ์ถ๋ ฅ aCLS์ ์ธํ
ํธ ๋ ์ด๋ธ yintent์ ๋จ์ผ ๋ฒกํฐ ๊ณต๊ฐ์ ์๋ฒ ๋ฉ๋๋ค.
- Dot-product loss๋ก ํ๊ฒ(์ ๋ต) ๋ ์ด๋ธ y+intent๊ณผ์ ์ ์ฌ๋ ๊ฐ์ ์ต๋ํ
- Negative sample์ธ y-intent๊ณผ์ ์ ์ฌ๋ ๊ฐ์ ์ต์ํ์ํจ๋ค.
- Intent loss(LI)๋ ์์์ ๊ตฌํ positive/negative ๊ฐ๊ฐ์ ์ ์ฌ๋ ๊ฐ์ ์ฌ์ฉํ์ฌ ๊ณ์ฐํ๋ค.
Masking
- BERT์์์ ๋ง์ฐฌ๊ฐ์ง๋ก ์
๋ ฅ ํ ํฐ์ ๋ฌด์์๋ก ๋ง์คํนํ๋ ํ์ต ์ค์ .
- ์
๋ ฅ ์ํ์ค์ 15%๋ฅผ ๋ง์คํน
- ๋ง์คํนํ๋ ํ ํฐ์ 70%์ ํ๋ฅ ๋ก
__MASK__
ํ ํฐ์ผ๋ก, 10%์ ํ๋ฅ ๋ก ๋๋ค ํ ํฐ์ผ๋ก, 20%์ ํ๋ฅ ๋ก ์๋ ํ ํฐ์ ์ ์งํ๋ค.
- Intent loss๋ฅผ ๊ตฌํ๋ ๋ฐฉ์๊ณผ ๋์ผํ๊ฒ Mask loss(LM)๋ฅผ ๊ตฌํ๋ค.
Total loss
- Multi-task ํ์ต ๋ฐฉ์์ ๋ชจ๋ธ๋ก ๊ฐ๊ฐ์ task์ loss๋ฅผ ์ดํฉํ loss๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต๋๋ค.
- ์ด ์ํคํ
์ฒ์์๋ ํน์ loss๋ฅผ turn-off ํ์ฌ ๊ตฌ์ฑํ ์ ์๋ค.
๐งชExperiments
Experiments on NLU-benchmark dataset
- NLU-benchmark dataset์ 10๊ฐ์ fold๋ก ๊ตฌ์ฑ
- ๊ฐ fold๋ณ๋ก ๋ชจ๋ธ์ ํ์ตํ์ฌ ์ฑ๋ฅ์ ํ๊ท ๊ณ์ฐ
- ์คํํ
DIET
๋ชจ๋ธ์ token level์์ one-hot encoding๊ณผ character n-grams์ multi-hot encodings์ ์ฌ์ฉ / ConveRT
์ dense embedding์ ์ฌ์ฉ
- Entity task์ precision์ ์ ์ธํ ๋ชจ๋ ์งํ์์ ๋์ ์ฑ๋ฅ์ ๋ณด์
Importance of different featurization components and masking
- Feature์ ๋ค์ํ ์กฐํฉ์ผ๋ก ์ธํ ์ฑ๋ฅ์ ๋น๊ต
Comparison with fine-tuned BERT (NLU-benchmark dataset)
DIET
๋ชจ๋ธ์ ConveRT
์ ์๋ฒ ๋ฉ์ dense feature๋ก, ๋จ์ด-์บ๋ฆญํฐ ๋ ๋ฒจ์ sparse feature๋ฅผ ์ฌ์ฉ
BERT
๋ DIET
๋ชจ๋ธ ์์์ fine tuningํ๋ ๋ฐฉ์
- ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋๋ฑํ๊ฒ ๋์ค์ง๋ง, ํ์ต ์๋๊ฐ
DIET
์ด 6๋ฐฐ์ ๋ ๋น ๋ฆ
๐Conclusion
- ์ฌ๋ฌ๊ฐ์ง ์ข
๋ฅ์ ๋ค๋ฅธ ๋ฐ์ดํฐ์
์์ ๋ชจ๋ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ์๋ฒ ๋ฉ ๊ตฌ์ฑ์ ์๋ ๊ฒ์ ํ์ธ.
- ๋ฐ๋ผ์, ์ด๋ ๋ชจ๋ํ๋ ์ํคํ
์ฒ(modular architecture) ๋ฐฉ์์ ์ค์์ฑ์ ๊ฐ์กฐํจ.
GloVe
์ ๊ฐ์ ๋จ์ด ์๋ฒ ๋ฉ๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์๋ฒ ๋ฉ๊ณผ ๋น๊ตํ์ฌ ๋๋ฑํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ํ์ธ.
- Pre-trained ์๋ฒ ๋ฉ์ ๊ตณ์ด ์ฌ์ฉํ์ง ์๋๋ผ๋, ๋ค๋ฅธ ๋ชจ๋ธ๊ณผ ๋๋ฑํ ์ฑ๋ฅ์ด ๋์จ๋ค๋ ๊ฒ์ ํ์ธ
- ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ pre-trained ์๋ฒ ๋ฉ ๊ตฌ์ฑ์ผ๋ก, DIET ๋ชจ๋ธ์ด fine-tuning BERT ๋ณด๋ค ํ์ต์๋๊ฐ ์ฌ์ฏ๋ฐฐ ๋น ๋ฅด๋ฉด์๋ ์ฑ๋ฅ์ ๋ฅ๊ฐํ๋ ๊ฒ์ ํ์ธํ ์ ์์