LLM: 트랜스포머 기반 언어 모델들 (1)

국부은하군·2024년 10월 24일

LLM

목록 보기
1/2
post-thumbnail

1. Transformer (2017)

  • 논문: "Attention is All You Need"
  • 요약: Transformer 모델은 기존 RNN과 CNN을 대체하며 등장한 모델로, 주목할 만한 점은 모든 정보를 다루는 데 있어 'Self-Attention' 메커니즘을 사용한다. 이를 통해 병렬화가 가능해 학습 속도가 크게 향상되었다. NLP 분야에서 큰 혁신을 가져온 기초 모델.

2. BERT (2018)

3. RoBERTa (2019)

  • 논문: "RoBERTa: A Robustly Optimized BERT Pretraining Approach"
  • 요약: RoBERTa는 BERT의 변형으로, 학습 데이터와 시간, 배치 크기 등을 증가시키고, 다음 문장 예측을 제거해 성능을 향상시킨 모델이다. BERT의 구조는 유지하되, 최적화를 통해 더 좋은 성능을 낸다.

4. T5 (2019)

5. GPT-2 (2019)

  • 논문: "Language Models are Unsupervised Multitask Learners"
  • 요약: GPT-2는 대규모의 텍스트 데이터로 학습된 비지도 학습 모델로, 문맥을 잘 이해하고 이어지는 문장을 예측하는 데 뛰어난 성능을 발휘한다. 'Generative Pretrained Transformer'의 두 번째 버전으로 텍스트 생성 작업에서 우수한 성과를 냄.

6. XLNet (2019)

7. DistilBERT (2019)

8. XLM-R (2019)

9. ALBERT (2019)

10. GPT-3 (2020)

  • 논문: "Language Models are Few-Shot Learners"
  • 요약: GPT-3는 GPT-2의 확장판으로, 1750억 개 이상의 매개변수를 가진 초대형 언어 모델이다. 텍스트 생성, 번역, 질문 답변 등 다양한 태스크에서 뛰어난 성능을 발휘하며, 특이하게도 훈련된 태스크 없이도 새로운 태스크를 해결하는 'few-shot' 학습 능력을 보여준다.

11. BART (2020)

12. Turing-NLG (2020)

  • 논문: 없음 (마이크로소프트에서 비공개 연구로 발표)
  • 요약: Turing-NLG는 마이크로소프트가 개발한 초대형 언어 모델로, 자연어 생성 태스크에서 탁월한 성능을 발휘한다. 170억 개 이상의 매개변수를 가지고 있으며, 주로 생성 기반 작업에 사용된다.

13. Electra (2020)

14. UniLM (2020)

15. TinyBERT (2020)

  • 논문: "TinyBERT: Distilling BERT for Natural Language Understanding"
  • 요약: TinyBERT는 BERT 모델의 경량 버전으로, 지식 증류 방식을 사용해 BERT의 성능을 유지하면서도 모델 크기를 줄이고 속도를 향상시켰다. 모바일 환경에서도 사용할 수 있도록 설계되었다.

16. MobileBERT (2020)

17. MiniLM (2020)

18. Quantized BERT (Q-BERT) (2020)

19. Reformer (2020)

  • 논문: "Reformer: The Efficient Transformer"
  • 요약: Reformer는 트랜스포머의 효율성을 개선한 모델로, 메모리 사용량을 줄이고 더 긴 시퀀스를 처리할 수 있게 만든다. 이는 국소적 민감 해싱(Locality-Sensitive Hashing)과 가역적 네트워크(reversible network)를 통해 가능해졌다.

20. DeBERTa (2021)

  • 논문: "DeBERTa: Decoding-enhanced BERT with Disentangled Attention"
  • 요약: DeBERTa는 기존 BERT 모델에 분리된(attention disentangling) 주의 메커니즘과 절대적 위치 정보가 아닌 상대적 위치 인코딩을 도입하여 성능을 향상시킨 모델이다. 다양한 NLP 태스크에서 BERT보다 우수한 성능을 발휘한다.

21. Megatron (2021)

23. Switch Transformer (2021)

24. LaMDA (2021)

  • 논문: 비공개 (구글의 대화 모델 연구 발표)
  • 요약: LaMDA는 구글이 개발한 대규모 대화형 언어 모델로, 대화를 보다 자연스럽게 이어갈 수 있도록 설계되었다. 자유 주제 대화에서 문맥을 이해하고, 사용자와 의미 있는 상호작용을 할 수 있는 특징을 가짐.

25. Gopher (2021)

  • 논문: "Gopher: Scaling Language Models"
  • 요약: Gopher는 DeepMind가 개발한 대규모 언어 모델로, 약 2800억 개의 파라미터를 가지고 있으며 다양한 자연어 처리 태스크에서 우수한 성능을 보여준다. 특히 대형 언어 모델의 윤리적 측면에 대한 연구도 포함되었다.

26. ERNIE (2021)

27. OpenAI Codex (2021)

  • 논문: 없음 (GPT-3의 확장으로 개발됨)
  • 요약: Codex는 GPT-3를 기반으로 한 모델로, 자연어를 프로그래밍 코드로 변환하는 능력을 갖추고 있다. 이를 통해 코드를 생성하거나 수정하는 데 도움을 주며, 주로 GitHub Copilot과 같은 개발 도구에 통합된다.

28. DALL·E (2021)

  • 논문: "Zero-Shot Text-to-Image Generation"
  • 요약: DALL·E는 텍스트 설명을 입력받아 이미지를 생성할 수 있는 모델이다. 창의적인 이미지 생성 작업에서 뛰어난 성과를 보이며, 이미지 생성에 대한 새로운 가능성을 열었다.

29. PERCEIVER (2021)

  • 논문: "Perceiver: General Perception with Iterative Attention"
  • 요약: Perceiver는 입력 데이터의 크기나 형식에 관계없이 다양한 형태의 입력을 처리할 수 있도록 설계된 모델이다. 이를 통해 이미지, 비디오, 텍스트 등 여러 형태의 데이터를 처리하는 데 강점을 가진다.

30. HyperClova (2021)

  • 논문: 비공개 (네이버의 대규모 언어 모델)
  • 요약: HyperClova는 네이버에서 개발한 한국어에 최적화된 대형 언어 모델이다. 2040억 개의 파라미터를 가지고 있으며, 한국어 기반 태스크에서 탁월한 성능을 발휘한다. 다양한 응용에서 활용된다.
profile
생각, 기술, 회고 등 다양한 분야를 기록합니다.

0개의 댓글