[LLM] Prefix Decoder Architecture

누렁이·2024년 7월 25일

LLMs

목록 보기

4/8

https://obvious-tendency-bc1.notion.site/Unified-Language-Model-Pre-training-for-Natural-Language-Understanding-and-Generation-NeurIPS-2019-a0b7c6e571cc4a1ca0cfd02ce1cdb675

Unified Language Model Pre-training for Natural Language Understanding and Generation (NeurIPS 2019)

본 논문의 핵심 포인트는 무엇인가?

UniLM → NLU(Natural Language Model)과 NLG(- Generation) 모두 fine tuning이 가능

3가지 Pre-training 진행: Unidirectional LM, Bidirectional LM, Seq to Seq LM

1개의 Transformer로 학습

이 연구의 목표:

좀 더 general한 NLP task 만들자!
LLM도 그런 목적이니까, 그 목적 이루기 전 초입 단계 논문인 느낌인가봄!

Introduction

- 배경

NLP task의 발전을 이끈 Model Pre-training! (with language modeling)
한계점
encoder단, decoder단으로 각각 만들어서 잘하는 task가 달랐음.
목표
- NLU, NLG 둘다 잘하는 모델 만들자!
Approach
- Unidirectional LM
  - 왼쪽에서 오른쪽(LTR) 또는 오른쪽에서 왼쪽(RTL)으로 단어를 순차적으로 예측함
  - NLG 작업에서 중요한 역할을 함 (텍스트를 자연스럽게 생성하는 데 유리)
- Bidirectional LM
  - 문장의 양쪽 문맥을 동시에 사용하여 단어를 예측함
  - 문맥 이해력 강화 → NLU 작업에 유리
- Sequence to Sequence (Seq2Seq) LM
  - 입력 시퀀스를 바탕으로 출력 시퀀스를 예측함
  - 복잡한 NLG 작업에서 유리함 (예: 번역, 요약 등)
Contribution
1. 여러 가지 모델링 기법을 통합한 pre-training은 cloze task를 통해 objective를 정의함으로써 여러 네트워크를 구현할 필요가 없음
2. 다양한 모델링 objective로 학습되기 때문에 좀 더 일반화된 representation을 학습할 수 있음
3. Seq-to-seq LM을 학습함으로써 더욱 복잡한 NLG task (abstractive summarization, question generation)에서 좀 더 나은 성능을 보임