시리즈

LLM Study

1.[LLM Study] Training a causal language model from scratch - code review

원본 huggingface link: https://huggingface.co/learn/nlp-course/chapter7/6?fw=pt 최근, OpenAI의 Codex 모델을 기반으로 한 TabNine 및 GitHub의 Copilot과 같은 도구 덕분에 코드를 생

2024년 7월 23일

2.[LLM Study] RoFormer: Enhanced transformer with Rotary Position Embedding (Neurocomputing, 2024) - paper review

Position Encoding Position Encoding 모델이 입력 시퀀스의 각 단어가 문장에서 어디에 위치하는지를 알 수 있도록 도와주는 역할 트랜스포머 모델은 위치 정보가 없으면 단어 간의 순서를 알 수 없기 때문에, 단어의 순서 정보를 명시적으로 추가해야 함 따라서 각 단어의 위치를 나타내는 벡터를 word embedding에 추가함으로써 ...

2024년 7월 29일

3.[LLM Study] Symbol tuning improves in-context learning in language models (EMNLP, 2023) - paper review

Abstract 심볼 튜닝(symbol tuning) 자연어 레이블(예: "긍정적/부정적 감정 분석")을 임의의 기호(예: "foo/bar")로 대체하여 LM을 fine-tuning하는 기법 언어 모델 fine-tuning이 모델의 행동과 성능을 크게 변화시킬 수 있다는 기존 연구들과 관련이 있음 (예를 들어, Instruction Tuning은 작업을 ...

2024년 8월 20일

4.[LLM Study] Least-to-Most Prompting Enables Complex Reasoning in Large Language Models (ICLR, 2023) - paper review

Abstract Chain-of-thought prompting은 다양한 자연어 추론 작업에서 뛰어난 성능을 보여주고 있음 하지만, 프롬프트에 제시된 예시보다 더 어려운 문제를 해결해야 하는 작업에서는 성능이 저하되는 경향 이러한 쉬운 문제에서 어려운 문제로의 어려움을 극복하기 위해, least-to-most prompting을 제안 핵심 아이디어는 복잡한...

2024년 8월 24일