최근 높은 성능을 보인 NLP 연구들은 대량의 unsupervised dataset에 pre-training 한 후 downstream task에 대해 supervised fine-tuning하는 transfer learning 방식을 사용하고 있다.
또한, 단순하게 더 큰 모델을 더 많은 데이터셋으로 학습 시킬수록 성능이 더 좋았다는 것으로 알려져 있다.
해당 논문에서는 transfer learning (pre-training -> fine-tuning) technique들에 대해 탐색하고, 모든 텍스트 기반 언어 문제를 text to text 형식으로 변환하는 통합 프레임워크를 소개한다.
구체적으로, pre-training objective, architectures, unlabeled dataset, fine-tuning methods 등에 대하여 각 기법의 효과에 대해 연구하는 비교 실험을 진행한다.

T5 모델의 기본 아이디어는 text가 input으로 들어가고, 새로운 text가 output으로 출력되는 것이다. 즉, 모든 NLP 문제를 text-to-text 방식으로 해결하는 것이다.
Text-to-text framework는 모든 task에 대해 동일한 model, hyperparameters, loss function 등을 사용한다는 점이 중요하다.
Text-to-text 모델 하나로 loss, hyperparameters 등의 변경 없이 요약, QA, 분류 등 다양한 nlp task에서 SOTA를 달성했다는 점에서 의의가 있다.
Relative position encoding이란?
- self-attention 계산 시 offset boundary 내의 token들에 relative position encoding 값을 준 것
- Ex. offset = 2일 때, relative position encoding index
- 다음 그림은 I think therefore I am"이라는 문장을 relative position encoding을 사용하여 transormer의 self-attention layer를 통과시키는 과정이다. (offset=2)
- Offset boundary를 넘어가는 단어는 가장 바깥쪽 index의 encoding 값을 부여한다. 그림에서 offset 범위를 넘어가는 첫 번째 토큰 I에 index 0의 encoding이 부여한다.
- T5에서는 offset을 32에서 128로 설정한다.
- 그림 출처: 티스토리 <끄적끄적>











마지막으로 T5가 채택한 것을 정리하면 다음과 같다.