
1. Transformer (2017) 논문: "Attention is All You Need" 요약: Transformer 모델은 기존 RNN과 CNN을 대체하며 등장한 모델로, 주목할 만한 점은 모든 정보를 다루는 데 있어 'Self-Attention'

31. Megatron-Turing NLG (2021) 논문: 비공개 (마이크로소프트와 NVIDIA의 협업) 요약: Megatron-Turing NLG는 5300억 개의 매개변수를 가진 초대형 언어 모델로, 매우 큰 모델을 사용해 자연어 생성 태스크에서 최