Attention Is All You Need, NIPS 2017
Improving Language Understanding by Generative Pre-Training
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv 2018
RoBERTa: A Robustly Optimized BERT Pretraining Approach, Facebook AI
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
Multitask Prompted Training Enables Zero-Shot Task Generalization, ICLR 2022
LLaMA: Open and Efficient Foundation Language Models, arXiv 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4, arXiv 2023
OPT: Open Pre-trained Transformer Language Models, arXiv 2022
인풋들 사이의 상대적인 거리 정보를 반영하는 Relative Position Representation 논문 정리 (+ Self-Attention 설명)
학습 시 사용한 토큰 수보다 추론 시 더 큰 토큰을 처리해야할 때, extrapolation을 도와주는 ALiBi attention (ICLR 2022)
상대적 위치 임베딩 (RPE) 방법론 탐색: composite kernel (합 커널)을 활용하여 위치 정보를 포함하는 KERPLE 논문 정리
Attention 연산을 효율적으로 바꾼 Flash Attention 알고리즘 소개
DeepLearning.AI 강의 | LLM 사전학습 (Upstage) - 0. Introduction
DeepLearning.AI 강의 | LLM 사전학습 (Upstage) - 1. 왜 사전학습이 필요한가?
DeepLearning.AI 강의 | LLM 사전학습 (Upstage) - 2. 데이터 준비