Language Model: Roberta, T5

Ko Hyejung·2021년 12월 5일

2021 SKT AI

목록 보기

12/12

Roberta

Additional optimization of Bert

large batch size
no more 'next sentence prediction' loss
10x more data (160GB w/common crawl)
more compute: 1,000 v100 GPU

T5 (Text-to-Text Transfer Transformer)

이전 포스트

Language Model: GPT-2

0개의 댓글