paper: https://aclanthology.org/2021.emnlp-main.125/
code: https://github.com/microsoft/unilm/tree/master/deltalm
T5: Exploring the Limits of T
ransfer Learning with a Unified T
ext-t
o-T
ext T
ransformer (Google, 2020) *(T가 5개!)
Goal: Task별로 Fine-tuninig하지 않고 NLU, NLG 구분 없어 하나의 Generation 모델 통합하는 Framework 제안
Method: 이것 저것 다 해보고 최적의 기법을 찾음 (주요 keyword!)
Text-to-Text Framework
:
모든 NLP 문제를 text-to-text 방식으로 푼다면 동일한 model, objective, training procedure, decoding preocess를 적용할 수 있다! So, 데이터 셋을 다 pair로 만들 것을 제안!
Original Encoder-Decoder Transformer
:
여러개 해봤더니 Encoder-Decoder가 최고더라!
Denoising Corrupted Span
:
noise를 추가하고 이를 복구시키는 pre-train 시키는 방식으로 objective function 설정
15% 비율로 noising
Span corruption task (SC) : unsupervised masked LM task
1) g_i : 오리지널 text에서 랜덤하게 span을 선택하고 [mask] 씌운다.
2) g_o : g_i에서 [mask]된 span의 오리지널 token끼리 결합하는데, 각 토큰 앞에 해당 토큰의 특정 [mask]를 함께 붙여서 decode 되어야할 span을 표현한다.
C4 Dataset
: Colossal Clean Crawled Corpus
Multi-task pre-training
Scaling Model Size
:
Pre-train시의 Train Loss를 줄이는 것보다는 데이터셋의 크기 자체를 늘리는게 유리
ref: https://tskim-dev.tistory.com/2
opensource: https://huggingface.co/t5-small
opensource (한국어): https://huggingface.co/AimB/mT5-en-kr-natural
안녕하세요 누렁이님 ! 글 잘 보고 갑니다 Cross-lingual과 Multilingual 연구에 관심이 많은데 덕분에 좋은 논문 읽게 되네요 ㅎㅎ
T5
mT5/mT6
Span corruption task 부분으로 3개의 cross-lingual tasks를 사용하여 학습하는 방법이 흥미롭네요! 깔끔한 요약 해주셔서 잘봤습니다~~ 😇!