시리즈

review

1.[논문 리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

SFT 없이 순수 RL만으로 자기검증, 반성, 긴 사고 과정이 자발적으로 출현하며, o1 수준 추론을 오픈 웨이트로 달성했다.

2026년 3월 31일

2.[논문 리뷰] Reflexion: Language Agents with Verbal Reinforcement Learning

가중치 업데이트 없이, 자연어 자기 반성을 에피소딕 메모리에 저장하여 LLM 에이전트가 실수에서 학습한다.

2026년 3월 31일

3.[논문 리뷰] SWE-Agent: Agent-Computer Interfaces Enable Automated Software Engineering

LLM의 능력만큼이나 에이전트가 코드베이스를 탐색/편집하는 인터페이스(ACI) 설계가 소프트웨어 엔지니어링 성능을 좌우한다.

2026년 3월 31일

4.[논문 리뷰] DPO: Direct Preference Optimization

RLHF의 3단계(SFT → Reward Model → PPO)를 수학적 변환 하나로 1단계(선호 데이터 → 직접 최적화)로 압축, 보상 모델 없이 정렬을 달성했다.

2026년 3월 31일

5.[논문 리뷰] Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

특수 reflection token을 학습하여 하나의 LLM이 검색 여부 판단, 관련성 평가, 생성 내용 자기 비평을 모두 수행하는 Agentic RAG의 시작점.

2026년 3월 31일

6.[논문 리뷰] LoRA: Low-Rank Adaptation of Large Language Models

가중치 변화량이 저랭크(low-rank)라는 가설 하에, 전체 파라미터의 0.01%만 학습하여 전체 파인튜닝과 동등한 성능을 달성했다.

2026년 3월 31일

7.[논문 리뷰] FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

셀프 어텐션의 진짜 병목은 연산량이 아니라 GPU 메모리 읽기/쓰기(IO)이며, 타일링+online softmax로 메모리 O(n)에 2-4배 속도 향상을 정확하게 달성했다.

2026년 3월 31일

8.[논문 리뷰] AWQ: Activation-Aware Weight Quantization for LLM Compression & Acceleration

가중치의 1%만 보호하면 전체 품질이 유지되며, 그 1%는 활성화 크기로 식별 가능하다 — 이 단순한 통찰로 GPTQ보다 빠르고 좋은 4비트 양자화를 달성.

2026년 3월 31일

9.[논문 리뷰] Mamba: Linear-Time Sequence Modeling with Selective State Spaces

입력에 따라 SSM 파라미터를 동적으로 조절하는 "선택적 상태 공간"으로, Transformer의 O(n²) 어텐션 없이 동등한 언어 모델링 성능을 달성했다.

2026년 3월 31일

10.[논문 리뷰] MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

소프트웨어 회사의 역할 분담(PM→Architect→Engineer→QA)과 표준 산출물(PRD→설계→코드→테스트)을 LLM 에이전트에 적용하여, 기존 멀티에이전트 대비 코드 생성 품질을 크게 향상시켰다.

2026년 3월 31일

11.[논문 리뷰] Voyager: An Open-Ended Embodied Agent with Large Language Models

마인크래프트에서 LLM이 코드를 작성·실행·누적 학습하여, 사람의 개입 없이 새로운 기술을 끝없이 획득하는 최초의 "평생 학습" 체화 에이전트.

2026년 3월 31일

12.[논문 리뷰] Toolformer: Language Models Can Teach Themselves to Use Tools

소수의 도구 사용 예시에서 출발해 LLM이 스스로 대량의 도구 호출 학습 데이터를 생성(self-supervised)하여, 언제 어떤 도구를 호출할지 자율적으로 학습했다.

2026년 3월 31일

13.[논문 리뷰] Fast Inference from Transformers via Speculative Decoding

작은 모델이 여러 토큰을 "추측"하고 큰 모델이 한 번에 검증하는 방식으로, 출력 분포를 정확히 보존하면서 추론 속도를 2-3배 향상시켰다.

2026년 3월 31일

14.[논문 리뷰] LLaVA: Visual Instruction Tuning

GPT-4가 생성한 멀티모달 instruction 데이터로 비전 인코더+LLM을 연결하여, 이미지를 이해하고 대화하는 멀티모달 모델을 단순하면서도 효과적으로 구현했다.

2026년 3월 31일

15.[논문 리뷰] DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines

프롬프트 엔지니어링을 수작업에서 프로그래밍으로 전환 — LM 호출을 선언적으로 정의하고 컴파일러가 자동으로 프롬프트/파인튜닝을 최적화한다.

2026년 3월 31일

16.[논문 리뷰] Orca: Progressive Learning from Complex Explanation Traces of GPT-4

GPT-4의 단순한 출력이 아닌 "사고 과정(explanation trace)"을 증류하여, 13B 모델이 복잡한 추론 태스크에서 ChatGPT를 초과하는 성능을 달성했다.

2026년 3월 31일

17.[논문 리뷰] SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot

재학습 없이 단 한 번의 프루닝으로 GPT-175B의 가중치 60%를 제거하면서도 perplexity 증가를 최소화하는 최초의 대규모 LLM 프루닝 방법.

2026년 3월 31일

18.[논문 리뷰] BitNet b1.58: The Era of 1-bit LLMs — Every LLM Parameter is Ternary {-1, 0, 1}

LLM 가중치를 {-1, 0, 1} 세 값으로 제한하면서도 FP16 모델과 동등한 성능을 달성, 곱셈 없는 행렬 연산으로 에너지·

2026년 3월 31일

19.[논문 리뷰] vLLM: Efficient Memory Management for LLM Serving with PagedAttention

OS의 가상 메모리 페이징 기법을 KV Cache에 적용하여 메모리 낭비를 거의 제거하고, LLM 서빙 처리량을 2-4배 향상시켰다.

2026년 3월 31일

20.[논문 리뷰] Constitutional AI: Harmlessness from AI Feedback

사람 대신 AI가 스스로의 출력을 헌법(원칙 목록) 기준으로 비평·수정하여, 인간 피드백(RLHF) 의존을 줄이면서도 무해하고 유용한 모델을 만드는 방법.

2026년 3월 31일

21.[논문 리뷰] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

"단계별로 생각하라"는 프롬프트만으로 LLM의 수학·논리 추론 성능이 극적으로 향상되며, 이 효과는 모델이 클수록 강하게 나타난다 (emergent ability).

2026년 3월 31일

22.[논문 리뷰] ReAct: Synergizing Reasoning and Acting in Language Models

LLM이 "생각(Reasoning)"과 "행동(Acting)"을 교차하며 외부 환경과 상호작용하게 하여, 추론만 또는 행동만의 한계를 모두 극복한 에이전트 패턴의 원형.

2026년 3월 31일

23.[논문 리뷰] Attention Is All You Need

RNN/CNN 없이 셀프 어텐션만으로 시퀀스를 처리하는 Transformer 아키텍처를 제안하여, NLP를 넘어 AI 전체의 기본 구조가 되었다.

2026년 3월 31일

24.[논문 리뷰] Training Compute-Optimal Large Language Models (Chinchilla)

기존 LLM은 과대 파라미터·과소 데이터로 학습되었으며, 같은 연산 예산에서 모델 크기와 데이터를 1:1로 스케일하면 4배 작은 모델로 동등 성능을 달성한다.

2026년 3월 31일

25.[논문 리뷰] Mixtral of Experts

8개 전문가 중 2개만 선택하여 활성화하는 Sparse MoE 구조로, 12.9B 활성 파라미터만으로 LLaMA-2-70B와 동등한 성능을 달성하며 추론 비용을 대폭 절감했다.

2026년 3월 31일

26.[논문 리뷰] QLoRA: Efficient Finetuning of Quantized LLMs

4비트 양자화된 모델 위에 LoRA를 얹고, 새로운 NF4 데이터 타입과 이중 양자화로 메모리를 극한까지 절감하여, 단일 48GB GPU로 65B 모델 파인튜닝을 가능하게 했다.

2026년 3월 31일

27.[논문 리뷰] Corrective Retrieval Augmented Generation (CRAG)

검색 결과의 품질을 {Correct, Ambiguous, Incorrect}로 평가하고, 부정확할 경우 웹 검색으로 전환하는 자기 교정 RAG로, 기존 RAG의 노이즈 문제를 체계적으로 해결했다.

2026년 3월 31일

28.[논문 리뷰] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

사전학습된 언어 모델과 검색 시스템을 결합하여 외부 지식을 동적으로 참조하는 RAG 패러다임을 최초로 제안, 지식 집약 태스크에서 순수 LLM과 순수 검색 시스템 모두를 초과했다.

2026년 3월 31일

29.[논문 리뷰] Wanda: A Simple and Effective Pruning Approach for Large Language Models

가중치 크기 × 활성화 크기라는 단순한 기준만으로, SparseGPT와 동등한 프루닝 성능을 Hessian 계산 없이 달성하여 프루닝을 극도로 단순화했다.

2026년 3월 31일

30.[논문 리뷰] InstructGPT: Training Language Models to Follow Instructions with Human Feedback

인간 피드백 강화학습(RLHF)으로 GPT-3를 정렬하여, 1.3B InstructGPT가 175B GPT-3보다 사람이 선호하는 응답을 생성하며, "유용하고 무해한 AI"의 실용적 경로를 제시했다.

2026년 3월 31일