요약: Transformer 모델은 기존 RNN과 CNN을 대체하며 등장한 모델로, 주목할 만한 점은 모든 정보를 다루는 데 있어 'Self-Attention' 메커니즘을 사용한다. 이를 통해 병렬화가 가능해 학습 속도가 크게 향상되었다. NLP 분야에서 큰 혁신을 가져온 기초 모델.
요약: GPT-2는 대규모의 텍스트 데이터로 학습된 비지도 학습 모델로, 문맥을 잘 이해하고 이어지는 문장을 예측하는 데 뛰어난 성능을 발휘한다. 'Generative Pretrained Transformer'의 두 번째 버전으로 텍스트 생성 작업에서 우수한 성과를 냄.
요약: GPT-3는 GPT-2의 확장판으로, 1750억 개 이상의 매개변수를 가진 초대형 언어 모델이다. 텍스트 생성, 번역, 질문 답변 등 다양한 태스크에서 뛰어난 성능을 발휘하며, 특이하게도 훈련된 태스크 없이도 새로운 태스크를 해결하는 'few-shot' 학습 능력을 보여준다.
요약: Reformer는 트랜스포머의 효율성을 개선한 모델로, 메모리 사용량을 줄이고 더 긴 시퀀스를 처리할 수 있게 만든다. 이는 국소적 민감 해싱(Locality-Sensitive Hashing)과 가역적 네트워크(reversible network)를 통해 가능해졌다.