28.5_gigaparsecs.log

28.5_gigaparsecs.log

LLM: 트랜스포머 기반 언어 모델들 (1)

국부은하군·2024년 10월 24일

LLM

목록 보기

1/2

1. Transformer (2017)

논문: "Attention is All You Need"
요약: Transformer 모델은 기존 RNN과 CNN을 대체하며 등장한 모델로, 주목할 만한 점은 모든 정보를 다루는 데 있어 'Self-Attention' 메커니즘을 사용한다. 이를 통해 병렬화가 가능해 학습 속도가 크게 향상되었다. NLP 분야에서 큰 혁신을 가져온 기초 모델.

2. BERT (2018)

논문: "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"
요약: BERT는 양방향(Bidirectional)으로 문맥을 이해하는 사전 학습된 트랜스포머 모델이다. 마스크된 언어 모델링(Masked Language Modeling, MLM)과 다음 문장 예측을 사용하여 텍스트를 학습하며, 다양한 NLP 작업에서 성능이 우수함.

3. RoBERTa (2019)

논문: "RoBERTa: A Robustly Optimized BERT Pretraining Approach"
요약: RoBERTa는 BERT의 변형으로, 학습 데이터와 시간, 배치 크기 등을 증가시키고, 다음 문장 예측을 제거해 성능을 향상시킨 모델이다. BERT의 구조는 유지하되, 최적화를 통해 더 좋은 성능을 낸다.

4. T5 (2019)

논문: "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"
요약: T5는 모든 NLP 작업을 텍스트-투-텍스트(Text-to-Text) 문제로 변환하여 해결하는 방식의 모델이다. 즉, 번역, 요약, 질문 답변 등 모든 태스크를 같은 형식으로 처리하는 것이 특징이다.

5. GPT-2 (2019)

논문: "Language Models are Unsupervised Multitask Learners"
요약: GPT-2는 대규모의 텍스트 데이터로 학습된 비지도 학습 모델로, 문맥을 잘 이해하고 이어지는 문장을 예측하는 데 뛰어난 성능을 발휘한다. 'Generative Pretrained Transformer'의 두 번째 버전으로 텍스트 생성 작업에서 우수한 성과를 냄.

6. XLNet (2019)

논문: "XLNet: Generalized Autoregressive Pretraining for Language Understanding"
요약: XLNet은 BERT와 GPT의 장점을 결합한 모델로, 순차적 예측 대신 "Permutation-based" 방식으로 모든 가능한 순서의 단어를 학습함으로써 성능을 향상시킨다. 자가회귀와 양방향성의 강점을 결합했다.

7. DistilBERT (2019)

논문: "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter"
요약: DistilBERT는 BERT의 축소판으로, 성능은 크게 유지하면서도 모델 크기를 줄이고 속도를 향상시킨 경량화된 트랜스포머 모델이다. 이는 지식 증류(knowledge distillation) 기술을 사용하여 만들어졌다.

8. XLM-R (2019)

논문: "Unsupervised Cross-lingual Representation Learning at Scale"
요약: XLM-R은 다국어 언어 모델로, 대규모 다국어 코퍼스를 사용해 훈련된 RoBERTa 기반 모델이다. 언어 간 전이 학습 성능이 뛰어나며, 다양한 언어에서 높은 성능을 보여준다.

9. ALBERT (2019)

논문: "ALBERT: A Lite BERT for Self-supervised Learning of Language Representations"
요약: ALBERT는 BERT의 경량화 모델로, 매개변수 공유와 행렬 분해를 통해 모델 크기를 줄이면서 성능 저하를 최소화했다. BERT보다 적은 리소스를 사용하면서도 거의 동일한 성능을 낸다.

10. GPT-3 (2020)

논문: "Language Models are Few-Shot Learners"
요약: GPT-3는 GPT-2의 확장판으로, 1750억 개 이상의 매개변수를 가진 초대형 언어 모델이다. 텍스트 생성, 번역, 질문 답변 등 다양한 태스크에서 뛰어난 성능을 발휘하며, 특이하게도 훈련된 태스크 없이도 새로운 태스크를 해결하는 'few-shot' 학습 능력을 보여준다.

11. BART (2020)

논문: "BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension"
요약: BART는 문장을 무작위로 삭제하거나 손상시키는 방식으로 텍스트를 노이즈화하고, 이를 복원하는 학습을 통해 자연어 생성과 이해에서 뛰어난 성능을 보인다. 인코더-디코더 구조를 사용한 트랜스포머 모델이다.

12. Turing-NLG (2020)

논문: 없음 (마이크로소프트에서 비공개 연구로 발표)
요약: Turing-NLG는 마이크로소프트가 개발한 초대형 언어 모델로, 자연어 생성 태스크에서 탁월한 성능을 발휘한다. 170억 개 이상의 매개변수를 가지고 있으며, 주로 생성 기반 작업에 사용된다.

13. Electra (2020)

논문: "ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators"
요약: Electra는 새로운 학습 방식인 'Replaced Token Detection'을 도입한 모델로, 생성된 단어가 올바른지 여부를 판별하는 방식으로 학습된다. 이 방식은 기존 MLM보다 효율적이며, 적은 리소스로 더 빠르고 효과적으로 학습할 수 있다.

14. UniLM (2020)

논문: "Unified Language Model Pre-training for Natural Language Understanding and Generation"
요약: UniLM은 단일 트랜스포머 모델로 자연어 이해와 생성 태스크를 동시에 수행할 수 있도록 설계되었다. 이 모델은 다양한 학습 모드를 지원하여 다양한 NLP 작업에서 높은 성능을 보인다.

15. TinyBERT (2020)

논문: "TinyBERT: Distilling BERT for Natural Language Understanding"
요약: TinyBERT는 BERT 모델의 경량 버전으로, 지식 증류 방식을 사용해 BERT의 성능을 유지하면서도 모델 크기를 줄이고 속도를 향상시켰다. 모바일 환경에서도 사용할 수 있도록 설계되었다.

16. MobileBERT (2020)

논문: "MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices"
요약: MobileBERT는 리소스가 제한된 환경에서 실행할 수 있도록 설계된 BERT의 경량화 버전이다. BERT 모델의 성능을 유지하면서도 모바일 기기와 같은 환경에서도 활용할 수 있게 최적화되었다.

17. MiniLM (2020)

논문: "MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-trained Transformers"
요약: MiniLM은 사전 학습된 트랜스포머 모델의 작은 버전으로, 자체 주의 메커니즘의 증류를 통해 성능을 유지하면서도 파라미터 수를 대폭 줄였다. 경량 모델로서 빠른 추론이 필요한 응용에 적합하다.

18. Quantized BERT (Q-BERT) (2020)

논문: "Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT"
요약: Q-BERT는 BERT 모델을 양자화하여 메모리 사용량을 줄이고 추론 속도를 향상시킨 모델이다. 특히 매우 낮은 정밀도(ultra-low precision)에서도 성능을 유지하도록 설계되었다.

19. Reformer (2020)

논문: "Reformer: The Efficient Transformer"
요약: Reformer는 트랜스포머의 효율성을 개선한 모델로, 메모리 사용량을 줄이고 더 긴 시퀀스를 처리할 수 있게 만든다. 이는 국소적 민감 해싱(Locality-Sensitive Hashing)과 가역적 네트워크(reversible network)를 통해 가능해졌다.

20. DeBERTa (2021)

논문: "DeBERTa: Decoding-enhanced BERT with Disentangled Attention"
요약: DeBERTa는 기존 BERT 모델에 분리된(attention disentangling) 주의 메커니즘과 절대적 위치 정보가 아닌 상대적 위치 인코딩을 도입하여 성능을 향상시킨 모델이다. 다양한 NLP 태스크에서 BERT보다 우수한 성능을 발휘한다.

21. Megatron (2021)

논문: "Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism"
요약: Megatron은 매우 대규모 언어 모델 학습을 위한 병렬화 프레임워크로, 수십억 개의 매개변수를 가진 모델을 효율적으로 학습하는 데 최적화되어 있다. 대형 트랜스포머 모델을 학습할 수 있는 기술적 인프라를 제공한다.

23. Switch Transformer (2021)

논문: "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity"
요약: Switch Transformer는 모델을 희소하게 학습하는 방식으로 수조 개의 매개변수를 다루는 모델이다. 활성화되는 파라미터만 사용하는 방식으로 효율성을 높였다. 매우 대규모 모델을 효율적으로 학습할 수 있도록 설계되었다.

24. LaMDA (2021)

논문: 비공개 (구글의 대화 모델 연구 발표)
요약: LaMDA는 구글이 개발한 대규모 대화형 언어 모델로, 대화를 보다 자연스럽게 이어갈 수 있도록 설계되었다. 자유 주제 대화에서 문맥을 이해하고, 사용자와 의미 있는 상호작용을 할 수 있는 특징을 가짐.

25. Gopher (2021)

논문: "Gopher: Scaling Language Models"
요약: Gopher는 DeepMind가 개발한 대규모 언어 모델로, 약 2800억 개의 파라미터를 가지고 있으며 다양한 자연어 처리 태스크에서 우수한 성능을 보여준다. 특히 대형 언어 모델의 윤리적 측면에 대한 연구도 포함되었다.

26. ERNIE (2021)

논문: "ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation"
요약: ERNIE는 바이두가 개발한 언어 모델로, 지식 그래프를 활용하여 언어 이해와 생성 능력을 강화했다. 대규모 지식 기반을 통합함으로써 의미적 표현 학습에서 더욱 우수한 성능을 보인다.

27. OpenAI Codex (2021)

논문: 없음 (GPT-3의 확장으로 개발됨)
요약: Codex는 GPT-3를 기반으로 한 모델로, 자연어를 프로그래밍 코드로 변환하는 능력을 갖추고 있다. 이를 통해 코드를 생성하거나 수정하는 데 도움을 주며, 주로 GitHub Copilot과 같은 개발 도구에 통합된다.

28. DALL·E (2021)

논문: "Zero-Shot Text-to-Image Generation"
요약: DALL·E는 텍스트 설명을 입력받아 이미지를 생성할 수 있는 모델이다. 창의적인 이미지 생성 작업에서 뛰어난 성과를 보이며, 이미지 생성에 대한 새로운 가능성을 열었다.

29. PERCEIVER (2021)

논문: "Perceiver: General Perception with Iterative Attention"
요약: Perceiver는 입력 데이터의 크기나 형식에 관계없이 다양한 형태의 입력을 처리할 수 있도록 설계된 모델이다. 이를 통해 이미지, 비디오, 텍스트 등 여러 형태의 데이터를 처리하는 데 강점을 가진다.

30. HyperClova (2021)

논문: 비공개 (네이버의 대규모 언어 모델)
요약: HyperClova는 네이버에서 개발한 한국어에 최적화된 대형 언어 모델이다. 2040억 개의 파라미터를 가지고 있으며, 한국어 기반 태스크에서 탁월한 성능을 발휘한다. 다양한 응용에서 활용된다.

국부은하군

생각, 기술, 회고 등 다양한 분야를 기록합니다.

다음 포스트

LLM: 트랜스포머 기반 언어 모델들 (2)

0개의 댓글