소개
잠재 추론으로 테스트 시간 계산 확장하기
이 연구에서는 추가 토큰 생성 없이도 테스트 시간에 모델이 더 깊은 추론을 수행할 수 있는 잠재적 반복 심층 변환기(latent recurrent-depth transformer)를 소개합니다. 생각의 사슬(CoT) 토큰을 늘리지 않고도 잠재 공간에서의 반복 추론을 통해 35억 개 파라미터 모델로도 50억 개 파라미터 모델 수준의 성능을 달성합니다.
우리는 잠재 공간에서 암시적으로 추론하여 테스트 시간 계산을 확장할 수 있는 새로운 언어 모델 아키텍처를 연구합니다. 우리의 모델은 반복 블록을 반복하여 테스트 시간에 임의의 깊이까지 풀어나가는 방식으로 작동합니다. 이는 더 많은 토큰을 생성하여 컴퓨팅을 확장하는 주류 추론 모델과는 대조적입니다. 연쇄 사고에 기반한 접근 방식과 달리, 저희의 접근 방식은 특별한 훈련 데이터가 필요하지 않고, 작은 컨텍스트 창에서 작동할 수 있으며, 말로 쉽게 표현할 수 없는 추론 유형을 포착할 수 있습니다. 개념 증명 모델을 35억 개의 매개변수와 8,000억 개의 토큰으로 확장했습니다. 결과 모델은 추론 벤치마크에서 때로는 500억 개의 매개변수에 해당하는 계산 부하까지 극적으로 성능을 향상시킬 수 있음을 보여줍니다.
뇌 활동으로부터 텍스트 디코딩: 비침습적 접근을 통한 타이핑
Meta AI에서 EEG·MEG 뇌파 신호를 통해 사용자가 입력하는 텍스트를 해독하는 Brain2Qwerty 모델을 개발했습니다.
최신 신경 보철물은 이제 말하거나 움직일 수 있는 능력을 상실한 환자의 의사소통을 회복시킬 수 있습니다. 하지만 이러한 침습적 장치에는 신경외과 수술에 내재된 위험이 수반됩니다. 여기에서는 뇌 활동에서 문장의 생성을 해독하고 35명의 건강한 지원자 코호트에서 그 효능을 입증하는 비침습적 방법을 소개합니다. 이를 위해 참가자들이 간단히 외운 문장을 쿼티(QWERTY) 키보드로 입력하는 동안 뇌파(EEG) 또는 자기뇌파(MEG)로부터 문장을 해독하도록 훈련된 새로운 딥러닝 아키텍처인 Brain2Qwerty를 소개합니다. MEG를 사용하면 Brain2Qwerty의 문자 오류율(CER)은 평균 32%에 달했으며, EEG(CER: 67%)를 크게 능가했습니다. 최고의 참가자의 경우, 이 모델은 19%의 CER을 달성하고 훈련 세트 이외의 다양한 문장을 완벽하게 해독할 수 있습니다. 오류 분석 결과 해독은 운동 과정에 의존하는 것으로 나타났지만, 오타 분석 결과에는 더 높은 수준의 인지적 요인도 포함되어 있는 것으로 나타났습니다. 전반적으로 이러한 결과는 침습적 방법과 비침습적 방법 사이의 간극을 좁히고 의사소통이 불가능한 환자를 위한 안전한 뇌-컴퓨터 인터페이스 개발의 길을 열어줍니다.
Self-Play를 통한 강화학습
LLM에게 복잡한 문제 풀이를 가르치기 위해, 모델이 자체적으로 문제를 설정하고 풀며 보상을 주고받는 RLSP(Reinforcement Learning via Self-Play) 기법이 제안되었습니다.
저희는 셀프 플레이를 통한 강화 학습(RLSP)이라는 사후 학습 프레임워크를 제안합니다. RLSP에는 세 단계가 포함됩니다: (1) 추론 과정의 사람 또는 합성 데모를 통한 감독된 미세 조정, (2) 다양하고 효율적인 추론 행동을 장려하기 위한 탐색 보상 신호 사용, (3) 보상 해킹을 방지하면서 정확성을 보장하기 위한 결과 검증기를 사용한 RL 훈련입니다. 핵심 혁신은 PPO 훈련 중 탐색 신호와 정답 신호를 분리하여 성능과 효율성을 개선하기 위해 신중하게 균형을 맞추는 것입니다.
수학 영역의 경험적 연구에 따르면 RLSP는 추론 능력을 향상시키는 것으로 나타났습니다. Llama-3.1-8B-Instruct 모델에서 RLSP는 MATH-500 테스트 세트에서 성능을 23% 향상시킬 수 있으며, AIME 2024 수학 문제에서 Qwen2.5-32B-Instruct는 RLSP로 인해 10% 향상되었습니다. 그러나 이 연구에서 더 중요한 발견은 모델이 더 많은 중간 단계를 수행하도록 장려하는 가장 단순한 탐색 보상에도 불구하고 RLSP를 사용하여 훈련된 모델이 역추적, 아이디어 탐색, 검증과 같은 몇 가지 새로운 행동을 보였다는 것입니다. 이러한 결과는 RLSP 프레임워크가 확장 시 LLM에서 복잡한 추론 능력의 출현을 가능하게 하는 데 충분할 수 있음을 보여줍니다. 마지막으로, CoT의 단계 수가 증가할수록 LLM의 계산 능력이 증가한다는 놀라운 결과에서 영감을 받아 RLSP 검색 전략이 LLM에 더 적합한 이유에 대한 이론을 제안합니다 \cite{li2024chain,merrill2023expressive}.
대규모 추론 모델을 활용한 알고리즘 대회 코딩
OpenAI의 연구에서, 알고리즘 대회에 특화된 모델(o1-ioi)과 범용 대규모 모델(o3)의 성능을 비교한 결과가 제시되었습니다.
대규모 언어 모델(LLM)에 강화 학습을 적용하면 복잡한 코딩 및 추론 작업에서 성능이 크게 향상된다는 것을 보여줍니다. 또한 2024년 국제 정보학 올림피아드(IOI)에서 경쟁하기 위해 수작업으로 설계된 추론 전략을 사용하는 도메인 전용 시스템인 o1-ioi와 범용 추론 모델인 OpenAI o1 및 초기 체크포인트인 o3를 비교합니다. 저희는 2024 IOI에서 o1-ioi로 실시간 경쟁을 펼쳤으며, 수작업으로 만든 시험 시간 전략을 사용하여 49번째 백분위수 안에 들었습니다. 완화된 경쟁 제약 조건에서 o1-ioi는 금메달을 획득했습니다. 그러나 o3와 같은 후기 모델을 평가할 때, 수작업으로 만든 도메인별 전략이나 완화된 제약 조건 없이도 o3가 금메달을 획득한 것으로 나타났습니다. 연구 결과에 따르면 o1-ioi와 같은 전문화된 파이프라인이 확실한 개선 효과를 제공하지만, 확장된 범용 o3 모델은 수작업으로 만든 추론 휴리스틱에 의존하지 않고도 이러한 결과를 능가하는 것으로 나타났습니다. 특히, o3는 2024 IOI에서 금메달을 획득하고 엘리트 인간 경쟁자들과 동등한 수준의 코드포스 등급을 획득했습니다. 전반적으로 이러한 결과는 도메인별 기술에 의존하지 않고 범용 강화 학습을 확장하는 것이 경쟁 프로그래밍과 같은 추론 영역에서 최첨단 AI를 향한 강력한 경로를 제공한다는 것을 보여줍니다.
효율적으로 추론하도록 언어 모델 학습시키기
이 논문에서는 동적 계산 할당 기법을 통해, 모델이 문제 난이도에 따라 추론 단계(Chain-of-Thought)를 가변적으로 선택하도록 유도하는 방법을 제안합니다.
모델 크기와 학습 데이터의 확장은 대규모 언어 모델(LLM)의 성능에 큰 발전을 가져왔습니다. 그러나 이 접근법의 수익률이 감소함에 따라 특히 고급 추론이 필요한 작업에서 모델 기능을 개선할 수 있는 대안이 필요해졌습니다. 긴 생각의 사슬을 활용하는 대규모 추론 모델은 문제 해결 능력에서 전례 없는 혁신을 가져다주지만, 세대를 거듭할수록 상당한 구축 비용이 발생합니다. 추론 비용을 줄이는 것은 이러한 모델의 경제성, 사용자 경험, 환경적 지속 가능성을 위해 매우 중요합니다.
이 연구에서는 대규모 추론 모델을 효율적으로 추론할 수 있도록 훈련하는 방법을 제안합니다. 보다 정확하게는 강화 학습(RL)을 사용하여 추론 모델을 훈련시켜 작업 복잡도에 따라 추론 시간 계산을 동적으로 할당하는 것입니다. 이 방법은 정확성을 유지하면서 불필요한 계산 오버헤드를 최소화하도록 모델을 장려하여 상당한 효율성 향상을 달성합니다. 이를 통해 단일 하이퍼파라미터를 통해 제어되는 다양한 효율성 수준의 추론 모델 제품군을 도출할 수 있습니다. 두 개의 개방형 대규모 추론 모델에 대한 실험을 통해 정확도는 대부분 유지하면서 추론 비용을 크게 절감할 수 있음을 입증했습니다.
LM2: 대규모 메모리 모델
LM2(Large Memory Models)는 트랜스포머에 외부 메모리 모듈을 추가하여 장기 문맥 처리와 복잡한 추론 능력을 강화한 모델 아키텍처입니다.
이 논문에서는 다단계 추론, 관계형 논증, 긴 컨텍스트에 분산된 정보 합성에서 표준 트랜스포머의 한계를 해결하기 위해 보조 메모리 모듈로 강화된 디코더 전용 트랜스포머 아키텍처인 대용량 메모리 모델(LM2)을 소개합니다. 제안된 LM2는 문맥 표현 저장소 역할을 하는 메모리 모듈을 통합하여 교차 주의를 통해 입력 토큰과 상호 작용하고 게이팅 메커니즘을 통해 업데이트합니다. 트랜스포머의 범용 기능을 유지하기 위해 LM2는 원래의 정보 흐름을 유지하면서 보완적인 메모리 경로를 통합합니다. BABILong 벤치마크의 실험 결과에 따르면 LM2 모델은 모든 작업에서 평균적으로 메모리 증강 RMT 모델보다 37.1%, 기본 모델인 Llama-3.2 모델보다 86.3% 더 뛰어난 성능을 보였습니다. LM2는 멀티 홉 추론, 수치 추론, 대규모 문맥 질문 답변에서 탁월한 성능을 발휘합니다. MMLU 데이터 세트에서는 사전 학습된 바닐라 모델에 비해 5.0%의 성능 향상을 달성하여 메모리 모듈이 일반적인 작업에서 성능을 저하시키지 않음을 입증했습니다. 또한, 분석에서는 메모리 해석 가능성, 메모리 모듈의 효율성, 테스트 시간 동작에 대해 살펴봅니다. 이러한 연구 결과는 Transformer 아키텍처를 개선하는 데 있어 명시적 메모리의 중요성을 강조합니다.
프롬프트 캐싱 Auditing
스탠퍼드 연구진은 LLM API에서의 프롬프트 캐싱이 사용자 프롬프트를 타이밍 차이를 통해 노출시키는 보안 취약점을 지적했습니다.
대규모 언어 모델(LLM)의 프롬프트 캐싱은 데이터에 따라 타이밍 차이가 발생하는데, 캐시된 프롬프트는 캐시되지 않은 프롬프트보다 더 빠르게 처리됩니다. 이러한 타이밍 차이는 사이드 채널 타이밍 공격의 위험을 초래합니다. 예를 들어, 캐시가 사용자 간에 공유되는 경우 공격자는 빠른 API 응답 시간에서 캐시된 프롬프트를 식별하여 다른 사용자의 프롬프트에 대한 정보를 알아낼 수 있습니다. 프롬프트 캐싱은 개인정보 유출의 원인이 될 수 있으므로 API 제공업체의 캐싱 정책에 대한 투명성이 중요합니다. 이를 위해 저희는 실제 LLM API 제공업체의 프롬프트 캐싱을 감지하기 위한 통계적 감사를 개발하고 수행합니다. OpenAI를 포함한 7개 API 제공업체에서 사용자 간 글로벌 캐시 공유를 감지하여 사용자의 프롬프트에 대한 잠재적인 개인정보 유출을 감지했습니다. 프롬프트 캐싱으로 인한 타이밍 변화도 모델 아키텍처에 대한 정보 유출을 초래할 수 있습니다. 즉, 이전에는 공개적으로 알려지지 않았던 OpenAI의 임베딩 모델이 디코더 전용 트랜스포머라는 증거를 발견했습니다.
언어모델의 추론 능력을 증대시키기 위한 셀프-백트래킹
LLM의 추론 견고성을 높이기 위해, 모델이 자기 추론 과정 도중 백트래킹(backtracking)을 수행할 수 있도록 한 기법이 제안되었습니다.
느린 사고 메커니즘을 대규모 언어 모델(LLM)에 통합하면 OpenAI의 o1과 같은 시스템에서 볼 수 있듯이 레벨 2 AGI 리서처를 달성할 수 있는 유망한 방법이 될 수 있습니다. 그러나 비효율적인 과다 사고와 보조 보상 모델에 대한 과도한 의존 등 몇 가지 중요한 과제가 남아 있습니다. 이러한 한계는 효과적인 추론의 핵심 요소인 검색 프로세스를 내재화하지 못하는 LLM의 무능력에서 비롯된다는 점을 지적합니다. 이 문제를 해결하기 위한 중요한 단계는 LLM이 기존 검색 알고리즘의 기본 연산인 백트래킹 시점과 위치를 자율적으로 결정할 수 있도록 하는 것입니다. 이를 위해 학습과 추론 과정에서 LLM에 백트래킹 기능을 제공하는 셀프 백트래킹 메커니즘을 제안합니다. 이 메커니즘은 자기 개선을 통해 느린 사고 프로세스를 빠른 사고로 전환함으로써 추론 능력뿐만 아니라 효율성까지 향상시킵니다. 경험적 평가에 따르면 우리의 제안은 LLM의 추론 능력을 크게 향상시켜 최적 경로 감독 미세 조정 방식에 비해 40% 이상의 성능 향상을 달성했습니다. 이 연구는 더욱 발전되고 강력한 추론자를 개발할 수 있는 새롭고 유망한 경로를 제시했다고 생각합니다.
LLM을 적응시키기 위한 추론 강화: SOLOMON 아키텍처
IBM 연구진은 반도체 레이아웃 설계 등의 까다로운 공간 추론 문제에 대응하기 위해 SOLOMON이라는 신경영감형 LLM 구조를 개발했습니다.
이 논문에서는 도메인별 애플리케이션을 위한 기초 모델의 적응성을 향상시키는 새로운 신경 기반 대규모 언어 모델(LLM) 추론 네트워크 아키텍처인 SOLOMON을 소개합니다. 반도체 레이아웃 설계의 사례 연구를 통해 SOLOMON이 어떻게 프롬프트 엔지니어링과 인컨텍스트 학습 기술을 활용하여 범용 LLM을 특수 작업에 신속하게 적용할 수 있는지를 보여드립니다. 실험을 통해 공간 추론과 실제 문제에 도메인 지식을 적용하는 데 있어 LLM이 직면하는 어려움을 살펴봅니다. 실험 결과, 솔로몬 인스턴스는 기본 LLM 인스턴스보다 훨씬 뛰어난 성능을 보였으며 최첨단 추론 모델인 o1-preview와 비슷한 성능을 달성한 것으로 나타났습니다. 새로운 정보와 변화하는 요구사항에 대응하여 지속적으로 학습하고 적응하며 진화할 수 있는 적응형 AI 시스템 개발을 위한 향후 연구 방향에 대해 논의합니다.
ReasonFlux: 사고 템플릿 확장을 통한 계층적 LLM 추론
ReasonFlux 프레임워크는 체계화된 사고 단계를 미리 정의해둔 템플릿 라이브러리를 활용해 LLM을 효율적으로 미세 조정하는 방법을 제시합니다.
우리는 사고 템플릿 확장을 통한 계층적 LLM 추론이 추론 검색 공간을 효과적으로 최적화하고 OpenAI o1-preview 및 DeepSeek V3와 같은 강력한 LLM의 수학적 추론 기능을 능가할 수 있음을 제시합니다. 단 8개의 GPU로 ReasonFlux-32B 모델을 훈련하고 (i) 유사하거나 관련성이 높은 추론 문제로 일반화할 수 있는 약 500개의 높은 수준의 사고 템플릿을 포함하는 구조화되고 일반적인 사고 템플릿 라이브러리, (ii) 긴 CoT 대신 일련의 사고 템플릿에 계층적 강화 학습을 수행하여 복잡한 문제를 점차적으로 처리하기 위한 최적의 템플릿 궤적을 계획하도록 기본 LLM을 최적화, (iii) 추론 시 사고 템플릿을 적응적으로 확장하여 계층적 LLM 추론을 가능하게 하는 새로운 추론 확장 시스템 등 3가지 혁신을 도입하고 있습니다. 순차적 사고 템플릿을 포함하는 템플릿 궤적을 통해 ReasonFlux-32B는 수학 추론 기능을 최첨단 수준으로 크게 발전시켰습니다. 특히 수학 벤치마크에서 91.2%의 정확도를 달성하고 o1-preview를 6.7% 능가하는 결과를 얻었습니다. 미국 수학 올림피아드(AIME) 벤치마크에서 ReasonFlux-32B는 평균 56.7%의 문제를 해결하여 o1-preview와 DeepSeek-V3를 각각 27%, 45% 능가합니다. 코드는 이 https URL에 있습니다.