[논문 리뷰] - Transformer XL

Jisung Park·2021년 5월 25일

https://arxiv.org/pdf/1901.02860.pdf
https://medium.com/@mromerocalvo/dissecting-transformer-xl-90963e274bd7

결론: Transformer 를 긴 sequence length 에 적용할 수 있게 개선했고, 잘 된다.

Transformer 모델은 Attention mechanism으로 강력한 성능을 가질 수 있지만,
sequence length가 한정적인 문제가 있음

sequence length를 넘어가는 document를 다루는 방법에 관한 논문임

두 가지 아이디어가 있음

Pi,* 는 i 번째 position 의 positional embedding

Ei,* 는 i 번째 position 의 word embedding

u, v 는 absolute postional embedding이 중요하지 않으므로 임의의 학습가능한 vector로 치환한 것

absoulute positioal embedding 대신 i 번째와 j 번째의 상대적 차이를 고려한 relative positional embedding을 사용 (P*,i-j)

3.Results

word 개수가 많은 document도 잘 학습함 (low perplexity) - WikiText-103
(= language modeling을 수행함)
길이가 긴 text에 대해서도 잘 모델링 한다

WikiText-103 is the largest available word-level
language modeling benchmark with long-term dependency