# Transformer-XL

2개의 포스트

[논문 리뷰] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

transformers는 잠재적인 장기의존성을 가지고 있다. 하지만 모델링에서 고정 길이 세팅으로 제한이 있었다. transformer-xl은 이전 segment를 처리할 때 계산된 hidden state들을 사용하는 recurrence mechanism을 적용하고 이

2022년 6월 21일
·
0개의 댓글
·
post-thumbnail

Transformer-xl: Attentive language models beyond a fixed-length context

Extra-Large한 Language Model을 만들어볼까? | 16기 장준원

2022년 4월 23일
·
0개의 댓글
·