소개
s1: 간단한 테스트 시간 스케일링
스탠포드, UW 등의 연구원들은 추론 시 추가 컴퓨팅("테스트 시간 확장")을 사용하여 LLM 성능을 향상시키는 방법인 s1을 소개합니다. 주요 아이디어는 다음과 같습니다:
테스트 시간 확장은 테스트 시간 컴퓨팅을 추가로 사용하여 성능을 개선하는 언어 모델링의 유망한 새 접근 방식입니다. 최근 OpenAI의 o1 모델이 이 기능을 선보였지만 방법론을 공개적으로 공유하지 않았기 때문에 많은 모방이 이루어졌습니다. 저희는 테스트 시간 확장과 강력한 추론 성능을 달성하기 위해 가장 간단한 접근 방식을 추구합니다. 먼저, 난이도, 다양성, 품질이라는 세 가지 기준에 따라 추론 흔적과 짝을 이루는 1,000개의 질문으로 구성된 소규모 데이터 세트 s1K를 선별하여 추론을 통해 검증합니다. 둘째, 모델의 사고 과정을 강제로 종료하거나 종료하려고 할 때 모델 생성에 '대기'를 여러 번 추가하여 시간을 연장함으로써 테스트 시간 계산을 제어하기 위한 예산 강제화를 개발합니다. 이렇게 하면 모델이 답을 다시 확인하도록 유도하여 종종 잘못된 추론 단계를 수정할 수 있습니다. s1K에서 Qwen2.5-32B-Instruct 언어 모델을 감독하에 미세 조정하고 예산 강제력을 장착한 결과, s1-32B 모델은 경쟁 수학 문제에서 최대 27%(MATH 및 AIME24)까지 o1-preview를 능가했습니다. 또한 예산 강제 적용을 통해 s1-32B를 확장하면 시험 시간 개입 없이도 그 이상의 성능(AIME24의 경우 50%에서 57%까지)을 추정할 수 있습니다. 모델, 데이터 및 코드는 이 https URL에서 오픈 소스로 제공됩니다.
OmniHuman-1: 원스테이지 인간 애니메이션 스케일링
바이트댄스 AI 랩 연구팀은 단 하나의 이미지와 모션 입력(오디오 또는 비디오)으로 매우 사실적인 사람 동영상을 생성할 수 있는 확산 트랜스포머 모델인 OmniHuman-1을 공개했습니다. 주요 특징은 다음과 같습니다:
오디오 기반 말하는 사람 생성과 같은 엔드투엔드 휴먼 애니메이션은 최근 몇 년 동안 괄목할 만한 발전을 거듭해 왔습니다. 그러나 기존 방식은 여전히 대규모 일반 비디오 생성 모델로 확장하는 데 어려움을 겪고 있어 실제 애플리케이션에서 그 잠재력을 발휘하는 데 한계가 있습니다. 이 논문에서는 훈련 단계에 모션 관련 조건을 혼합하여 데이터를 확장하는 확산 트랜스포머 기반 프레임워크인 OmniHuman을 제안합니다. 이를 위해 이러한 혼합 조건에 대한 두 가지 훈련 원칙과 해당 모델 아키텍처 및 추론 전략을 소개합니다. 이러한 설계를 통해 OmniHuman은 데이터 기반 모션 생성을 최대한 활용하여 궁극적으로 매우 사실적인 사람 영상을 생성할 수 있습니다. 무엇보다도 OmniHuman은 다양한 인물 콘텐츠(얼굴 클로즈업, 인물, 반신, 전신)를 지원하고, 말하기와 노래를 모두 지원하며, 인간과 물체의 상호작용 및 까다로운 신체 포즈를 처리하고, 다양한 이미지 스타일을 수용할 수 있습니다. 기존의 엔드투엔드 오디오 중심 방식과 비교했을 때, OmniHuman은 더욱 사실적인 영상을 제작할 뿐만 아니라 입력의 유연성도 뛰어납니다. 또한 다양한 실행 방식(오디오 구동, 비디오 구동, 주행 신호 결합)을 지원합니다. 비디오 샘플은 ttfamily 프로젝트 페이지(이 https URL)에서 제공됩니다.
LIMO: 추론을 위해서는 적은 것이 더 많은 것입니다
몇 가지 예제로 복잡한 수학 추론을 LLM에게 가르칠 수 있을까요? 이 새로운 LIMO 논문은 어려운 추론 작업을 위해 방대한 미세 조정 데이터 세트가 필요하다는 생각에 도전합니다. 주요 연구 결과는 다음과 같습니다:
대규모 언어 모델에서 복잡한 추론이 어떻게 나타나는지에 대한 우리의 이해에 도전하는 근본적인 발견을 제시합니다. 기존의 통념에 따르면 정교한 추론 작업을 수행하려면 10만 개가 넘는 방대한 훈련 데이터가 필요하지만, 우리는 놀랍도록 적은 수의 예제로도 복잡한 수학적 추론 능력을 효과적으로 이끌어낼 수 있음을 보여줍니다. 종합적인 실험을 통해 제안된 모델 LIMO는 수학적 추론에서 전례 없는 성능을 보여줍니다. 817개의 엄선된 훈련 샘플만으로 LIMO는 AIME에서 57.1%, MATH에서 94.8%의 정확도를 달성해 기존 SFT 기반 모델의 각각 6.5%, 59.2%보다 향상된 성능을 보였으며, 이전 접근 방식에 필요한 훈련 데이터의 1%만 사용했습니다. LIMO는 10개의 다양한 벤치마크에서 40.5%의 절대적인 개선을 달성하며 100배 더 많은 데이터로 훈련된 모델을 능가하는 탁월한 분포 외 일반화를 보여줌으로써 SFT가 일반화가 아닌 암기로 이어진다는 통념에 도전장을 내밀었습니다. 이러한 결과를 바탕으로 우리는 LIMO 가설(Less-Is-More Reasoning Hypothesis)을 제안합니다: 사전 훈련 중에 도메인 지식이 포괄적으로 인코딩된 기초 모델에서는 최소한의, 그러나 정확하게 조율된 인지 과정의 시연을 통해 정교한 추론 능력이 나타날 수 있습니다. 이 가설은 복잡한 추론의 유도 임계값은 두 가지 주요 요인에 의해 결정된다고 가정합니다: (1) 사전 훈련 중 모델의 인코딩된 지식 기반의 완성도, (2) 복잡한 추론 작업을 해결하기 위해 지식 기반을 활용하는 방법을 모델에 보여주는 '인지 템플릿'으로서의 사후 훈련 예제의 효과성. 데이터 효율적인 추론의 재현성과 향후 연구를 용이하게 하기 위해 이 https URL에서 포괄적인 오픈 소스 제품군으로 LIMO를 공개합니다.
CoAT: 대규모 언어 모델 추론 향상을 위한 연관된 생각의 연쇄 프레임워크
이 연구에서는 생각을 탐색하고 업데이트하여 LLM이 인간처럼 추론할 수 있도록 하는 새로운 '느린 사고' 추론 프레임워크인 CoAT를 소개합니다. 주요 구성 요소는 다음과 같습니다:
LLM 기술에 대한 연구가 빠르게 진행되고 있으며, 대부분 추론에 '빠른 사고' 접근 방식을 채택하고 있습니다. 대부분의 LLM은 단일 쿼리와 LLM의 추론 능력만을 기반으로 최종 결과를 생성합니다. 하지만 OpenAI-o1의 등장으로 인간의 사고 과정에 더 가까운 '느린 사고' 기법이 주목받기 시작했습니다. 사고하는 동안 끊임없이 지식을 연결하고 보충하는 인간의 능력에서 영감을 받아, 새로운 '연관된 생각의 연쇄(CoAT)' 프레임워크를 개발하여 몬테카를로 트리 검색(MCTS) 알고리즘과 새로운 핵심 정보를 통합하는 동적 메커니즘인 '연관 메모리' 간의 혁신적인 시너지 효과를 도입했습니다. MCTS의 구조화된 탐색 기능과 연관 기억의 적응형 학습 기능을 결합함으로써 CoAT는 LLM 검색 공간을 크게 확장하여 프레임워크가 다양한 추론 경로를 탐색하고 지식 기반을 실시간으로 동적으로 업데이트할 수 있게 해줍니다. 이를 통해 프레임워크는 이전의 추론을 재검토하고 개선할 뿐만 아니라 진화하는 정보를 적응적으로 통합하여 최종 결과물이 정확하고 포괄적일 수 있도록 보장합니다. 프레임워크의 효과를 검증하기 위해 다양한 생성 및 추론 작업에 걸쳐 광범위한 실험을 수행했습니다. 이러한 실험을 통해 정확성, 일관성, 다양성 측면에서 기존 추론 프로세스를 능가하는 프레임워크의 성능을 입증했습니다. 프레임워크는 맥락에 맞는 정보 결과를 유지하면서 검색 공간을 반복적으로 확장하는 기능을 제공합니다.
Syntriever: LLM이 생성한 데이터로 검색기 학습하기
라벨이 지정된 대규모 데이터 세트나 LLM의 내부에 대한 액세스 없이 어떻게 고품질 텍스트 검색기를 구축할 수 있을까요? Syntriever는 합성 데이터를 사용해 블랙박스 LLM의 지식을 검색 모델로 추출하는 2단계 프레임워크를 제시합니다. 단계는 다음과 같습니다:
LLM은 많은 AI 애플리케이션의 발전을 촉진했습니다. 최근에는 LLM의 방대한 지식을 정보 검색 시스템으로 추출하려는 시도가 있었습니다. 이러한 증류 방법은 대부분 최신 블랙박스 LLM에서는 사용할 수 없는 LLM의 출력 확률을 사용합니다. 저희는 블랙박스 LLM의 합성 데이터를 사용하는 검색기용 훈련 프레임워크인 Syntriever를 제안합니다. Syntriever는 두 단계로 구성됩니다. 먼저 증류 단계에서는 주어진 쿼리에 대해 연쇄 사고를 사용하여 관련성이 있는 구절과 관련성이 없는 구절을 합성하고 증강된 쿼리를 생성합니다. LLM은 합성 데이터에서 가능한 환각에 대해 자체 검증을 수행한 후, 관련 구절의 임베딩을 클러스터링하도록 설계된 손실로 검색기를 훈련합니다. 두 번째로 정렬 단계에서는 리트리버를 LLM의 선호도에 맞게 정렬합니다. 우리는 부분 플라켓-루스 랭킹이라는 선호도 모델링을 제안하여 모델이 증류 단계에서 훈련된 모델에서 과도하게 벗어나지 않도록 정규화를 통해 LLM 선호도를 학습합니다. 실험 결과 Syntriever는 nDCG@K의 다양한 도메인 벤치마크 데이터 세트에서 최첨단 성능을 달성하는 것으로 나타났습니다. 코드는 이 https URL에서 확인할 수 있습니다.
LLM에서 긴 사고의-연쇄(CoT) 추론 이해하기
이 연구에서는 RL과 컴퓨팅 확장에 초점을 맞춰 LLM이 확장된 CoT 추론을 개발하는 방법을 조사합니다. 주요 인사이트는 다음과 같습니다:
이 논문은 LLM을 위한 CoT 훈련 전략을 개선하고자 하는 연구자들을 위한 체계적인 로드맵을 제공하며, RL과 보상 튜닝이 추론 깊이에 어떤 영향을 미치는지 강조합니다.
추론 컴퓨팅을 확장하면 대규모 언어 모델(LLM)에서 추론이 향상되며, 긴 생각의 사슬(CoT)을 통해 역추적 및 오류 수정과 같은 전략이 가능해집니다. 강화 학습(RL)은 이러한 기능을 개발하는 데 중요한 방법으로 부상했지만, 긴 CoT가 나타나는 조건은 여전히 불분명하며 RL 훈련에는 신중한 설계 선택이 필요합니다. 이 연구에서는 긴 CoT 추론의 메커니즘을 체계적으로 조사하여 모델이 긴 CoT 궤적을 생성할 수 있는 핵심 요소를 파악합니다. 광범위한 감독 미세 조정(SFT) 및 RL 실험을 통해 네 가지 주요 결과를 제시합니다. (1) SFT가 반드시 필요한 것은 아니지만, 훈련을 단순화하고 효율성을 개선합니다. (2) 추론 능력은 훈련 컴퓨팅이 증가하면 나타나는 경향이 있지만, 그 발달이 보장되는 것은 아니므로 보상 형성이 CoT 길이의 안정화에 중요합니다. (3) 검증 가능한 보상 신호의 확장은 RL에 매우 중요합니다. 필터링 메커니즘을 갖춘 노이즈가 많은 웹 추출 솔루션을 활용하는 것이 특히 STEM 추론과 같은 배포 외(OOD) 작업에 강력한 잠재력을 보인다는 점, (4) 오류 수정과 같은 핵심 능력은 기본 모델에 본질적으로 존재하지만 RL을 통해 복잡한 작업에 대해 이러한 기술을 효과적으로 인센티브화하려면 상당한 컴퓨팅이 필요하며 이러한 기술의 출현을 측정하려면 미묘한 접근 방식이 필요하다는 점 등을 발견했습니다. 이러한 인사이트는 LLM에서 긴 CoT 추론을 향상시키기 위한 교육 전략을 최적화하기 위한 실용적인 지침을 제공합니다. 코드는 다음에서 확인할 수 있습니다: 이 https URL
에이전트 혼합에 대해 다시 생각하기: 하나의 강력한 LLM으로 앙상블하기
여러 모델을 조합하는 것(혼합 에이전트, MoA)은 성능을 향상시키는 데 널리 사용되는 방법입니다. 이 논문에서는 다음과 같이 질문합니다: 여러 개의 LLM을 혼합하는 것이 실제로 도움이 될까요, 아니면 하나의 상위 모델 결과물을 앙상블하는 것이 더 나을까요 놀라운 답이 나옵니다: "Self-MoA"(단일 모델 앙상블)가 종종 다중 모델 앙상블보다 우월하다는 것입니다. 키포인트는 다음과 같습니다:
다양한 소스의 출력을 앙상블하는 것은 성능을 향상시키는 간단하면서도 효과적인 접근 방식입니다. 에이전트 혼합(MoA)은 여러 개의 서로 다른 대규모 언어 모델(LLM)의 출력을 통합하는 널리 사용되는 앙상블 방법 중 하나입니다. 이 논문에서는 언어 모델의 맥락에서 서로 다른 LLM을 혼합하는 것이 정말 유익한가라는 질문을 제기합니다. 이 논문에서는 가장 성능이 우수한 단일 LLM의 결과만 집계하는 앙상블 방식인 Self-MoA를 제안합니다. 광범위한 실험 결과, 놀랍게도 다양한 시나리오에서 Self-MoA가 여러 LLM을 혼합하는 표준 MoA보다 우수한 성능을 발휘하는 것으로 나타났습니다: Self-MoA는 알파카에벌 2.0 벤치마크에서 MoA보다 6.6% 개선되었으며, MMLU, CRUX, MATH 등 다양한 벤치마크에서 평균 3.8% 개선된 결과를 달성했습니다. 알파카에볼 2.0의 최상위 모델 중 하나에 Self-MoA를 적용하면 리더보드에서 새로운 최첨단 성능을 직접 달성할 수 있습니다. Self-MoA의 효과를 이해하기 위해 다양한 MoA 설정 하에서 출력의 다양성과 품질 간의 상충 관계를 체계적으로 조사했습니다. 그 결과, MoA 성과는 품질에 다소 민감하며, 서로 다른 LLM을 혼합하면 모델의 평균 품질이 낮아지는 경우가 많다는 것을 확인했습니다. 이 연구를 보완하기 위해 다양한 LLM을 혼합하는 것이 도움이 될 수 있는 시나리오를 확인했습니다. 이 논문에서는 여러 라운드에 걸쳐 많은 수의 LLM 출력을 즉시 집계할 수 있으며 모든 출력을 한 번에 집계하는 것만큼 효과적인 순차적 버전의 Self-MoA를 소개합니다.
MaAS: 멀티 에이전트 아키텍처 검색(에이전트 슈퍼넷)
여러 에이전트가 각각 특정 역할이나 도구를 사용하여 협업하는 LLM의 다중 에이전트 시스템을 구축하는 것은 강력하지만 일반적으로 하나의 복잡한 파이프라인을 수작업으로 설계해야 합니다. 대신 MaAS(멀티 에이전트 아키텍처 검색)는 범용 "에이전트 슈퍼넷"을 학습하여 각 쿼리에 대해 최적의 에이전트 팀을 즉시 스폰드할 수 있습니다. 이는 작업별 상담원 워크플로우 설계를 자동화합니다:
LLM(대규모 언어 모델) 기반의 다중 에이전트 시스템은 체계적인 협업과 상호작용을 통해 개별 에이전트의 인지적 경계를 확장하지만, 이러한 시스템을 구축하려면 종종 노동 집약적인 수작업 설계가 필요합니다. 에이전트 워크플로우의 설계를 자동화할 수 있는 방법이 있음에도 불구하고 일반적으로 정적이고 복잡한 획일화된 시스템을 추구하기 때문에 각 쿼리의 난이도와 도메인에 따라 추론 리소스를 동적으로 할당하지 못합니다. 이러한 문제를 해결하기 위해, 저희는 모놀리식 에이전트 시스템 추구에서 벗어나 확률적이고 연속적인 에이전트 아키텍처 분포인 Agentic Supernet을 최적화하는 방식으로 전환했습니다. 슈퍼넷에서 쿼리 종속 에이전트 시스템을 샘플링하여 고품질 솔루션과 맞춤형 리소스 할당(예: LLM 호출, 도구 호출, 토큰 비용)을 제공하는 자동화된 프레임워크인 MaAS를 소개합니다.) 6개의 벤치마크에 대한 종합적인 평가 결과, MaAS는 기존 수작업 또는 자동화된 멀티 에이전트 시스템의 추론 비용의 6∼45%, (II)는 0.54%∼11.82%, (III)는 데이터 세트 간 및 LLM 백본 간 전송성이 우수한 것으로 입증되었습니다.
LLM의 발전된 추론
이 서베이 논문은 LLM의 추론 능력을 향상시키기 위한 새로운 방법에 대한 시의적절한 개요를 제공합니다. 문헌을 몇 가지 주요 접근법 카테고리로 정리했습니다:
대규모 언어 모델(LLM)은 다양한 자연어 처리(NLP) 작업에서 괄목할 만한 성공을 거두었지만, 추론 능력은 여전히 근본적인 과제로 남아 있습니다. LLM은 인상적인 유창성과 사실 기억력을 보여주지만 논리적 추론, 수학적 문제 해결, 상식적 추론, 다단계 추론 등 복잡한 추론을 수행하는 능력은 종종 인간의 기대에 미치지 못합니다. 이 설문조사에서는 LLM에서 추론을 향상시키는 새로운 기법에 대한 종합적인 검토를 제공합니다. 기존 방법을 프롬프트 전략(예: 연쇄 추론, 자기 일관성, 트리 추론), 아키텍처 혁신(예: 검색 증강 모델, 모듈식 추론 네트워크, 신경 기호 통합), 학습 패러다임(예: 추론별 데이터 세트를 사용한 미세 조정, 강화 학습, 자기 감독 추론 목표) 등 주요 접근 방식으로 분류합니다. 또한 LLM에서 추론을 평가하는 데 사용되는 평가 프레임워크를 살펴보고 다양한 작업에서 환각, 견고성, 추론 일반화와 같은 미해결 과제를 강조합니다. 이 설문조사는 최근의 발전 사항을 종합하여 추론 증강 LLM의 향후 연구 및 실제 적용을 위한 유망한 방향에 대한 인사이트를 제공하는 것을 목표로 합니다.
서베이: LLM을 위한 텍스트 데이터 증강
이 종합적인 서베이 논문에서는 LLM을 위한 텍스트 데이터 증강 기술을 다룹니다. LLM은 방대한 학습 데이터를 요구하기 때문에 합성 또는 변환된 텍스트로 데이터 세트를 보강하는 것이 필수적입니다. 이 백서에서는 다음과 같은 내용을 다룹니다:
사전 학습된 언어 모델의 크기와 복잡성이 증가함에 따라 많은 애플리케이션에서 우수한 성능이 입증되었지만, 일반적으로 적절하게 학습하려면 대규모 학습 데이터 세트가 필요합니다. 훈련 세트가 충분하지 않으면 예기치 않게 모델이 과도하게 적합해져 복잡한 작업에 대처하지 못할 수 있습니다. 광범위한 말뭉치로 훈련된 대규모 언어 모델(LLM)은 뛰어난 텍스트 생성 기능을 갖추고 있어 데이터의 품질과 양을 개선하고 데이터 증강에 중요한 역할을 합니다. 특히, 개인화된 작업에는 고유한 프롬프트 템플릿이 제공되어 LLM이 필요한 콘텐츠를 생성할 수 있도록 안내합니다. 최근 유망한 검색 기반 기술은 외부 지식을 도입하여 보다 근거에 기반한 데이터를 생성할 수 있도록 함으로써 데이터 증강에서 LLM의 표현 능력을 더욱 향상시킵니다. 이 설문조사에서는 LLM의 데이터 증강에 대한 심층 분석을 통해 기술을 단순 증강, 프롬프트 기반 증강, 검색 기반 증강, 하이브리드 증강으로 분류합니다. 증강된 데이터를 정제하고 모델이 불충분한 콘텐츠를 걸러내는 데 크게 기여하는 데이터 증강의 후처리 접근법을 요약합니다. 그런 다음 일반적인 작업과 평가 지표를 제공합니다. 마지막으로 데이터 증강을 더욱 개선할 수 있는 기존의 과제와 향후 기회를 소개합니다.