여러 unseen task에 대한 zero-shot 성능을 일반화하기 위한 모델
T0는 Transformer encoder-decoder 구조의 모델로,
Classification, Question Answering, Translation 등 여러 task들을 모두 text-to-text task로 접근하는 T5에 기반한 모델이다.
T5 (Text-to-Text Transfer Transformer)
: A huge version of the original encoder-decoder Transformer
본 연구에서는 LM-adapted T5를 사용
prefix가 주어지면, 모델은 주어진 prefix에 대해 정답을 생성하도록 학습
Google의 FLAN
multitask prompted training을 수행함으로써 zero-shot generalization performance를 개선한 연구
Model Architecture
FLAN은 Decoder-only language model인 반면, T0는 Encoder-Decoder Architecture를 가진다.
Experiment 구성
FLAN은 single heldout task에 대한 성능을 보고하였지만,
T0는 Training task와 Heldout task를 고정하여, Multiple heldout task에 대한 성능을 보고했다.
딥러닝논문읽기모임 발표영상 (Youtube)
T0에 대한 글 잘 읽었습니다.
몇가지 공유드리고 싶은 말씀 전달합니다.
FLAN(아마 Finetuned Language Models are Zero-Shot Learners)에 대해 언급하신 부분에서 multitask prompted training이라고 표현하셨는데, FLAN에서 제시된 개념은 Instruction Tuning으로 prompt tuning과는 다른 실제 gradient update가 있는 finetuning입니다. 또, 후속연구(Scaling Instruction-Finetuned Language Models)에서는 decoer-only인 LaMDA기반 뿐 아니라 encoder-decoder 구조인T5기반 모델에 대해서도 연구가 있었습니다.
감사합니다.