RAG 시스템은 구현하기도 쉽지만, 그만큼 잘 동작하게끔 만드는 것도 어려움. RAG 성능을 높이는 방법에 대해 정리한 Medium 글이 있어서 정리하였음.
Rotary Positional Embeddings 은 Relative 기반의 방법이고, Additive form 이 아닌 Multiplicative 기법에 Sinusoid 아이디어를 활용한 것임
타겟으로 하는 downstream task 와 유사하게 pre-training 모델을 학습하는 것이 성능이 좋을 것이라는 가정에서 출발하여, summarization task 에서 새로운 self-supervised objective 를 제안하였고, SOTA 달성
Transformer 구조의 LM 에서 주어진 compute budget (FLOPs 로 표현) 에 대한 optimal model size 와 tokens 간의 관계에 대한 실험 연구
GPT 와 같은 모델이 few-shot 성능이 높은 대신 zero-shot 성능은 아직 부족한데, Instruction tuning 기법을 통해 unseen task 에 대한 zero-shot 성능을 높인 연구
Our results strongly suggest that larger models will continue to perform better, and will also be much more sample efficient
Swish: beta 값에 따라 다른 특성을 가질 수 있는 activation function 의 한 종류, GLU: Component-wise product of two linear transformations of input, SwiGLU: Swish + GLU
Meta AI 에서 Open 하여 공개한 LLM 모델로, 7B ~ 65B 규모의 foundation language models. GPT-3 (175B), Chinchilla (70B) 모델과 비교하여 우수한 성능을 보이며, public data 만을 사용
처리 속도를 높이기 위한 FP16 과 정확도 유지를 위한 FP 32 를 섞어서 학습하는 방법. LLM 학습 시 필수 사용되는 테크닉.
The XSum dataset consists of 226,711 Wayback archived BBC articles ranging over almost a decade (2010 to 2017) and covering a wide variety of domains
CNN/Daily Mail is a dataset for text summarization. Human generated abstractive summary bullets were generated from news stories in CNN and Daily Mail
Encoder/Decoder Transforer 구조인 BART 는 Denosing 학습 방식을 적용하여, Discriminative Task 에 대해서는 RoBERTa 와 유사한 성능, Generation Task 에 대해서는 SOTA 를 달성함.