profile
ML/DL Engineer 입니다. 유용한 정보들을 기록해두려 합니다.
post-thumbnail

[ML/DL] RAG 성능을 높이기 위한 10가지 방법

RAG 시스템은 구현하기도 쉽지만, 그만큼 잘 동작하게끔 만드는 것도 어려움. RAG 성능을 높이는 방법에 대해 정리한 Medium 글이 있어서 정리하였음.

2023년 10월 12일
·
0개의 댓글
·
post-thumbnail

[ML/DL] Rotary Embeddings

Rotary Positional Embeddings 은 Relative 기반의 방법이고, Additive form 이 아닌 Multiplicative 기법에 Sinusoid 아이디어를 활용한 것임

2023년 9월 11일
·
0개의 댓글
·
post-thumbnail

[Paper Review] PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization (ICML 2020)

타겟으로 하는 downstream task 와 유사하게 pre-training 모델을 학습하는 것이 성능이 좋을 것이라는 가정에서 출발하여, summarization task 에서 새로운 self-supervised objective 를 제안하였고, SOTA 달성

2023년 8월 31일
·
0개의 댓글
·
post-thumbnail

[Paper Review] Training Compute-Optimal Large Language Models (NeurIPS 2022)

Transformer 구조의 LM 에서 주어진 compute budget (FLOPs 로 표현) 에 대한 optimal model size 와 tokens 간의 관계에 대한 실험 연구

2023년 8월 29일
·
2개의 댓글
·
post-thumbnail

[Paper Review] Finetuned Language Models are Zero-Shot Learners (ICLR 2022)

GPT 와 같은 모델이 few-shot 성능이 높은 대신 zero-shot 성능은 아직 부족한데, Instruction tuning 기법을 통해 unseen task 에 대한 zero-shot 성능을 높인 연구

2023년 8월 24일
·
0개의 댓글
·
post-thumbnail

[Paper Review] Scaling Laws for Neural Language Models

Our results strongly suggest that larger models will continue to perform better, and will also be much more sample efficient

2023년 8월 22일
·
0개의 댓글
·
post-thumbnail

[ML/DL] SwiGLU

Swish: beta 값에 따라 다른 특성을 가질 수 있는 activation function 의 한 종류, GLU: Component-wise product of two linear transformations of input, SwiGLU: Swish + GLU

2023년 8월 17일
·
0개의 댓글
·
post-thumbnail

[Paper Review] LLaMA: Open and Efficient Foundation Language Models

Meta AI 에서 Open 하여 공개한 LLM 모델로, 7B ~ 65B 규모의 foundation language models. GPT-3 (175B), Chinchilla (70B) 모델과 비교하여 우수한 성능을 보이며, public data 만을 사용

2023년 8월 15일
·
0개의 댓글
·
post-thumbnail

[ML/DL] Mixed Precision Training

처리 속도를 높이기 위한 FP16 과 정확도 유지를 위한 FP 32 를 섞어서 학습하는 방법. LLM 학습 시 필수 사용되는 테크닉.

2023년 8월 14일
·
0개의 댓글
·
post-thumbnail

[Dataset] XSum

The XSum dataset consists of 226,711 Wayback archived BBC articles ranging over almost a decade (2010 to 2017) and covering a wide variety of domains

2023년 8월 14일
·
0개의 댓글
·

[Dataset] CNN Daily Mail

CNN/Daily Mail is a dataset for text summarization. Human generated abstractive summary bullets were generated from news stories in CNN and Daily Mail

2023년 8월 14일
·
2개의 댓글
·
post-thumbnail

[Paper Review] BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension (ACL 2020)

Encoder/Decoder Transforer 구조인 BART 는 Denosing 학습 방식을 적용하여, Discriminative Task 에 대해서는 RoBERTa 와 유사한 성능, Generation Task 에 대해서는 SOTA 를 달성함.

2023년 8월 14일
·
0개의 댓글
·