๐ก ๊ธฐ์กด Encoder-Decoder ๊ธฐ๋ฐ ํ ์คํธ ๋ฒ์ญ ์ ๋ฐ์ํ๋
๊ธด ์ ๋ ฅ ๋ฌธ์ฅ์ ๋ํ ์ฑ๋ฅ ์ ํ ์์ธ์ โfixed-lengthโ์์ ์ฐพ์,
์๋ก์ด ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ ์โ Variable-length Encoding & Attention Decoding by using
context vector
ย
Previous : Neural Machine Translation with encoder-decoder
Flow : Source ๋ฌธ์ฅ โ encoder
โ โfixed-lengthโ vector โ decoder
โ output
์ด๋, using โfixed-lengthโ : bottleneck ์ ๋ฐ!
In this paper
; Automatically soft-search
Traditional translation : Phase-based translation system
Previous Neural translation : Train a single, large network, sentence-unit
In this paper
: "context vector" ์ด์ฉ
Input ๋ฌธ์ฅ์ด ๊ธธ์ด์ง ๋ ์๊ธฐ๋ ์ ๋ณด ์์ถ ๋ฌธ์ ์ ๋ํ ํด๊ฒฐ์ฑ ์ ์ - ๋งค ๋จ์ด ์์ฑ๋ง๋ค Automatically soft-search
Mechanism
: โ๏ธ
์ฆ, Encoder
๋ ์
๋ ฅ ๋ฌธ์ฅ์ sequence of vectors๋ก ๋ณํํ๊ณ ,
Decoder
๋ ์ธ์ฝ๋์ ์ถ๋ ฅ ๋ฒกํฐ ์ค, ํ์ํ ๋ถ๋ถ(subset)์ ๊ณจ๋ผ์ -Context vector๋ฅผ ์ด์ฉํ์ฌ- ์ฌ์ฉํ๋ค.
์ด๋ฅผ ํตํด ๋ค์๊ณผ ๊ฐ์ ํจ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
Translation task == ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ต๋ํ ํ๋ ๋ฌธ์ฅ์ ํ์ํ๋ ์์ ์ด๋ค.
: Conditional probability of , given a source sentence =
Encoder
:
์ ๋ ฅ ๋ฌธ์ฅ์ ๋ฐ์ Context vector ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์์ฑํ๋ค.
Input sentence โ Encoder
โ Sequence of vectors
โ Encoder
โ (variable-length, contect vector)
RNN :
where ; hidden state at time t
; context vector generated from hidden states
; some nonlinear functions
ex.) can be LSTM
ย
Decoder
:
์ ๋ ฅ์ ๋ฐ์ ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋๋ก ํ์ต๋๋ค.
Trained to predict the next word
(given & previously predicted words )
์ฆ, Decoder defines a probability over the translation , ํด๋น ๋จ์ด๋ก ๋ณํ(์์ธก)๋ ์กฐ๊ฑด๋ถํ๋ฅ ์ ์๋์ ๊ฐ์ด ์ ์ํ๋ค.
, RNN :
Where g ; nonlinear, potentially multi-layered, ํ๋ฅ ๊ณ์ฐ ํจ์
; hidden state of RNN
Conditional probability
: We define as
Where ; RNN hidden state of time i,
์ ์์ ์ฐจ์ด์ :
๊ฐ target word ๋ง๋ค ์กฐ๊ฑด๋ถํ๋ฅ ์ ์ ์ํ๋ ๊ฐ, time ๋ง๋ค ๊ฐ๋ณ์ ์ผ๋ก ์ง์ ๋์ด ์๋ค.
Context vector
:
๋ ์ธ์ฝ๋์ ์ถ๋ ฅ(mapped input sentence) - - ์ ์ํด ์๋์ ๊ฐ์ด ๊ฒฐ์ ๋๋ค.
์ด๋, ๊ฐ๊ฐ์ ๋ ์ ์ฒด ๋ฌธ์ฅ(input sequence)์ ๋ํ ์ ๋ณด๋ฅผ ๊ฐ์ง๋ค.
(Containing strong focus on suroundings of -th word.)
๋ ๋ค์๊ณผ ๊ฐ์ด ๊ฐ ์ ๋ํ ๊ฐ์คํฉ(weighted sum)์ผ๋ก์จ ๊ณ์ฐ๋๋ฉฐ,
๊ฐ์ค์น ๋ ๋ก๋ถํฐ ๊ฐ ์์ธก๋ ํ๋ฅ ์ด๋ค.
์ฆ, ๋ฅผ ์์ฑํ ๋ ์ 'importance(์ค์๋)'๋ฅผ ์๋ฏธํ๋ฉฐ, ๊ทธ๊ฒ์ ๊ฐ์ค์น๋ก์จ ์ ๋ฐ์ํ๋ค. ( reflectes the importance of the annotation )
Context vector ๋, ์์น์ ๋จ์ด ๊ฐ ๋ฒ์งธ ์ถ๋ ฅ ๋จ์ด ์ ๋ํ relevent information์ ์ผ๋ง๋ ๊ฐ์ง๋์ง์ ์ ๋ณด๋ฅผ ๋ด๊ธฐ ๋๋ฌธ!
โ ์์ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก, 1.์ Mechanism์ ์ธ๊ธ๋ ๋ฐ์ ๊ฐ์ด,
Decoder๊ฐ ์ธ์ฝ๋์ ์ถ๋ ฅ ๋ฒกํฐ ์ค, ์ค์ํ(ํ์ํ) ๋ถ๋ถ(subset)์ ๊ณจ๋ผ์ ์ฌ์ฉํ๋ ๊ฒ์ฒ๋ผ ๋ณด์ด๊ฒ ํ๋ค.
์ด๋ฅผ ํตํด Decoder
์ Attention mechanism
์ด ๊ตฌํ๋๋๋ฐ,
์
๋ ฅ ๋ฌธ์ฅ์ ์ด๋ค ๋ถ๋ถ์ ์ง์คํ ์ง Decoder๊ฐ ๊ฒฐ์ (ํ๋ ๊ฒ์ฒ๋ผ ๋ณด์)ํ๊ฒ ๋๋ค.
โ๏ธ Encoder๊ฐ ์ ๋ ฅ๋ ์ ์ฒด ๋ฌธ์ฅ์ fixed-length๋ก ์์ถํ๋ ๋ถ๋ด์ ๋์ด์ค๋ค.
ย
BiRNN
:
๊ฐ ๋จ์ด๊ฐ ์๊ธฐ ์์ ์ ์ด์ ๋จ์ด๋ค์ ๋ํ ์ ๋ณด๋ฟ๋ง ์๋๋ผ, ์ดํ ๋จ์ด๋ค์ ๋ํ ์ ๋ณด๊น์ง ์ป์ ์ ์๊ฒ ํ๊ธฐ ์ํจ์ด๋ค.
(For summarizing not only the preceding words, but also the following words.)
โ ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ ์ด์ , ์ดํ ๋ฌธ๋งฅ์ ๋ํ ๋ชจ๋ ์ ๋ณด๋ฅผ ๊ฐ์ง๋ค.