SFT 없이 순수 RL만으로 자기검증, 반성, 긴 사고 과정이 자발적으로 출현하며, o1 수준 추론을 오픈 웨이트로 달성했다.
가중치 업데이트 없이, 자연어 자기 반성을 에피소딕 메모리에 저장하여 LLM 에이전트가 실수에서 학습한다.
LLM의 능력만큼이나 에이전트가 코드베이스를 탐색/편집하는 인터페이스(ACI) 설계가 소프트웨어 엔지니어링 성능을 좌우한다.
RLHF의 3단계(SFT → Reward Model → PPO)를 수학적 변환 하나로 1단계(선호 데이터 → 직접 최적화)로 압축, 보상 모델 없이 정렬을 달성했다.
특수 reflection token을 학습하여 하나의 LLM이 검색 여부 판단, 관련성 평가, 생성 내용 자기 비평을 모두 수행하는 Agentic RAG의 시작점.
가중치 변화량이 저랭크(low-rank)라는 가설 하에, 전체 파라미터의 0.01%만 학습하여 전체 파인튜닝과 동등한 성능을 달성했다.
셀프 어텐션의 진짜 병목은 연산량이 아니라 GPU 메모리 읽기/쓰기(IO)이며, 타일링+online softmax로 메모리 O(n)에 2-4배 속도 향상을 정확하게 달성했다.
가중치의 1%만 보호하면 전체 품질이 유지되며, 그 1%는 활성화 크기로 식별 가능하다 — 이 단순한 통찰로 GPTQ보다 빠르고 좋은 4비트 양자화를 달성.
입력에 따라 SSM 파라미터를 동적으로 조절하는 "선택적 상태 공간"으로, Transformer의 O(n²) 어텐션 없이 동등한 언어 모델링 성능을 달성했다.
소프트웨어 회사의 역할 분담(PM→Architect→Engineer→QA)과 표준 산출물(PRD→설계→코드→테스트)을 LLM 에이전트에 적용하여, 기존 멀티에이전트 대비 코드 생성 품질을 크게 향상시켰다.
마인크래프트에서 LLM이 코드를 작성·실행·누적 학습하여, 사람의 개입 없이 새로운 기술을 끝없이 획득하는 최초의 "평생 학습" 체화 에이전트.
소수의 도구 사용 예시에서 출발해 LLM이 스스로 대량의 도구 호출 학습 데이터를 생성(self-supervised)하여, 언제 어떤 도구를 호출할지 자율적으로 학습했다.
작은 모델이 여러 토큰을 "추측"하고 큰 모델이 한 번에 검증하는 방식으로, 출력 분포를 정확히 보존하면서 추론 속도를 2-3배 향상시켰다.
GPT-4가 생성한 멀티모달 instruction 데이터로 비전 인코더+LLM을 연결하여, 이미지를 이해하고 대화하는 멀티모달 모델을 단순하면서도 효과적으로 구현했다.
프롬프트 엔지니어링을 수작업에서 프로그래밍으로 전환 — LM 호출을 선언적으로 정의하고 컴파일러가 자동으로 프롬프트/파인튜닝을 최적화한다.
GPT-4의 단순한 출력이 아닌 "사고 과정(explanation trace)"을 증류하여, 13B 모델이 복잡한 추론 태스크에서 ChatGPT를 초과하는 성능을 달성했다.
재학습 없이 단 한 번의 프루닝으로 GPT-175B의 가중치 60%를 제거하면서도 perplexity 증가를 최소화하는 최초의 대규모 LLM 프루닝 방법.
LLM 가중치를 {-1, 0, 1} 세 값으로 제한하면서도 FP16 모델과 동등한 성능을 달성, 곱셈 없는 행렬 연산으로 에너지·
OS의 가상 메모리 페이징 기법을 KV Cache에 적용하여 메모리 낭비를 거의 제거하고, LLM 서빙 처리량을 2-4배 향상시켰다.
사람 대신 AI가 스스로의 출력을 헌법(원칙 목록) 기준으로 비평·수정하여, 인간 피드백(RLHF) 의존을 줄이면서도 무해하고 유용한 모델을 만드는 방법.
"단계별로 생각하라"는 프롬프트만으로 LLM의 수학·논리 추론 성능이 극적으로 향상되며, 이 효과는 모델이 클수록 강하게 나타난다 (emergent ability).
LLM이 "생각(Reasoning)"과 "행동(Acting)"을 교차하며 외부 환경과 상호작용하게 하여, 추론만 또는 행동만의 한계를 모두 극복한 에이전트 패턴의 원형.
RNN/CNN 없이 셀프 어텐션만으로 시퀀스를 처리하는 Transformer 아키텍처를 제안하여, NLP를 넘어 AI 전체의 기본 구조가 되었다.
기존 LLM은 과대 파라미터·과소 데이터로 학습되었으며, 같은 연산 예산에서 모델 크기와 데이터를 1:1로 스케일하면 4배 작은 모델로 동등 성능을 달성한다.
8개 전문가 중 2개만 선택하여 활성화하는 Sparse MoE 구조로, 12.9B 활성 파라미터만으로 LLaMA-2-70B와 동등한 성능을 달성하며 추론 비용을 대폭 절감했다.
4비트 양자화된 모델 위에 LoRA를 얹고, 새로운 NF4 데이터 타입과 이중 양자화로 메모리를 극한까지 절감하여, 단일 48GB GPU로 65B 모델 파인튜닝을 가능하게 했다.
검색 결과의 품질을 {Correct, Ambiguous, Incorrect}로 평가하고, 부정확할 경우 웹 검색으로 전환하는 자기 교정 RAG로, 기존 RAG의 노이즈 문제를 체계적으로 해결했다.
사전학습된 언어 모델과 검색 시스템을 결합하여 외부 지식을 동적으로 참조하는 RAG 패러다임을 최초로 제안, 지식 집약 태스크에서 순수 LLM과 순수 검색 시스템 모두를 초과했다.
가중치 크기 × 활성화 크기라는 단순한 기준만으로, SparseGPT와 동등한 프루닝 성능을 Hessian 계산 없이 달성하여 프루닝을 극도로 단순화했다.
인간 피드백 강화학습(RLHF)으로 GPT-3를 정렬하여, 1.3B InstructGPT가 175B GPT-3보다 사람이 선호하는 응답을 생성하며, "유용하고 무해한 AI"의 실용적 경로를 제시했다.