25년 02월 2주차 논문 요약

thon·2025년 2월 18일

소개

이번 주에 선정된 논문들을 살펴보면, 전반적으로 ‘대규모 언어 모델(LLM)의 추론 능력을 고도화하고 다양한 영역에 적용하는 전략’이 두드러진다는 점이 돋보입니다. 특히 잠재 공간에서의 반복 계산(Latent Reasoning), 백트래킹(Backtracking), 자기 놀이를 통한 RL(Self-Play), 계층적 템플릿 기반 추론(ReasonFlux) 등, 모델이 스스로 더 깊이 있고 유연한 추론을 하도록 만드는 여러 기법들이 대거 소개되었습니다. 또한 모델이 외부 메모리(또는 추가 구조)를 활용해 장기 문맥을 처리하거나, 문제 난이도에 따라 계산 시간을 동적으로 조절(Training LLMs to Reason Efficiently)하는 등, 효율적이고 견고한 추론을 지향하는 시도도 눈에 띕니다.
반면, ‘프롬프트 캐싱 보안 이슈’나 ‘뇌 활동 기반 텍스트 해독(Non-invasive BCI)’과 같이, 순수 NLP/언어 모델의 고도화 외에도 AI 활용 분야가 점점 광범위해지고 있음을 보여주는 연구도 포함되어 있습니다. 예컨대, Brain2Qwerty는 EEG/MEG 뇌파 신호에서 텍스트를 디코딩하는 혁신적인 방안을 제시함으로써, 인터페이스·헬스케어 분야와의 접목 가능성을 보여주고 있습니다. 또한 Prompt Caching 감사 연구는 LLM API 제공에서 발생할 수 있는 보안상의 취약점을 경고함으로써, AI 시스템의 안전성·투명성에 대한 중요성을 다시 한번 상기시킵니다.
이처럼, 이번 주 논문들은 한편으로는 LLM이 더욱 복잡한 추론·계산을 다룰 수 있는 토대를 마련하고(예: latent reasoning, self-play, backtracking, ReasonFlux), 다른 한편으로는 효율성, 안정성, 응용성을 강화하는 데 초점을 맞추고 있다고 볼 수 있습니다. 모델 규모를 무작정 키우기보다, 메모리 모듈(LM2)이나 동적 계산 기법 등을 도입해 자원 소모 대비 성능을 최적화하는 접근 역시 주목할 만합니다.
이러한 경향은 실제 산업·연구 현장에서 LLM이 점차 더 복잡한 문제를 해결해야 하며, 동시에 상용화에 적합한 효율성과 안전성을 갖춰야 한다는 인식을 반영합니다. 즉, 단순히 파라미터 수나 데이터셋 크기에 의존하는 시대를 넘어, 모델이 자체적으로 사고 과정을 조직하고 점검할 수 있는 능력—그리고 이를 다양한 영역(코딩, 헬스케어, 엔지니어링, 보안 등)에 적용할 수 있는 체계적인 기법—이 점점 더 중요해지고 있음을 이번 주 논문들이 잘 보여준다고 할 수 있습니다.

잠재 추론으로 테스트 시간 계산 확장하기

논문 소개

이 연구에서는 추가 토큰 생성 없이도 테스트 시간에 모델이 더 깊은 추론을 수행할 수 있는 잠재적 반복 심층 변환기(latent recurrent-depth transformer)를 소개합니다. 생각의 사슬(CoT) 토큰을 늘리지 않고도 잠재 공간에서의 반복 추론을 통해 35억 개 파라미터 모델로도 50억 개 파라미터 모델 수준의 성능을 달성합니다.

모델은 추론 시 재귀적으로 블록을 반복하여, 입력 시퀀스를 수정하지 않고도 원하는 만큼 계산 단계를 늘릴 수 있습니다.
CoT 전용 학습이 필요 없어, 일반적인 사전 훈련 데이터로도 폭넓은 추론 작업에 적용 가능합니다.
긴 컨텍스트를 요구하지 않아 메모리 효율이 높으며, 토큰별 적응형 컴퓨팅과 KV 캐시 공유 등을 통해 계산 효율도 강화됩니다.
충분한 반복을 활용할 경우 ARC, GSM8K, OpenBookQA 등 복잡한 과제에서 훨씬 큰 모델과 맞먹는 성능을 보입니다.

논문 초록

우리는 잠재 공간에서 암시적으로 추론하여 테스트 시간 계산을 확장할 수 있는 새로운 언어 모델 아키텍처를 연구합니다. 우리의 모델은 반복 블록을 반복하여 테스트 시간에 임의의 깊이까지 풀어나가는 방식으로 작동합니다. 이는 더 많은 토큰을 생성하여 컴퓨팅을 확장하는 주류 추론 모델과는 대조적입니다. 연쇄 사고에 기반한 접근 방식과 달리, 저희의 접근 방식은 특별한 훈련 데이터가 필요하지 않고, 작은 컨텍스트 창에서 작동할 수 있으며, 말로 쉽게 표현할 수 없는 추론 유형을 포착할 수 있습니다. 개념 증명 모델을 35억 개의 매개변수와 8,000억 개의 토큰으로 확장했습니다. 결과 모델은 추론 벤치마크에서 때로는 500억 개의 매개변수에 해당하는 계산 부하까지 극적으로 성능을 향상시킬 수 있음을 보여줍니다.

논문 링크 - https://arxiv.org/abs/2502.05171?utm_source=pytorchkr&ref=pytorchkr

뇌 활동으로부터 텍스트 디코딩: 비침습적 접근을 통한 타이핑

논문 소개

Meta AI에서 EEG·MEG 뇌파 신호를 통해 사용자가 입력하는 텍스트를 해독하는 Brain2Qwerty 모델을 개발했습니다.

기존 침습적 BCI와 달리, 수술 없이 외부 장치만으로 문자를 예측해 낼 수 있다는 점에서 큰 의의를 갖습니다.
심층 학습을 통해 뇌 신호에서 중요한 특징을 추출하고, 이를 문자 단위의 언어 모델과 결합해 해독 정확도를 높였습니다.
MEG 기반 방식은 32%의 문자 오류율(CER)을 달성했고, 일부 참가자에서는 19% CER까지 낮춰 비침습적인 뇌-컴퓨터 인터페이스의 가능성을 시사합니다.

논문 초록

최신 신경 보철물은 이제 말하거나 움직일 수 있는 능력을 상실한 환자의 의사소통을 회복시킬 수 있습니다. 하지만 이러한 침습적 장치에는 신경외과 수술에 내재된 위험이 수반됩니다. 여기에서는 뇌 활동에서 문장의 생성을 해독하고 35명의 건강한 지원자 코호트에서 그 효능을 입증하는 비침습적 방법을 소개합니다. 이를 위해 참가자들이 간단히 외운 문장을 쿼티(QWERTY) 키보드로 입력하는 동안 뇌파(EEG) 또는 자기뇌파(MEG)로부터 문장을 해독하도록 훈련된 새로운 딥러닝 아키텍처인 Brain2Qwerty를 소개합니다. MEG를 사용하면 Brain2Qwerty의 문자 오류율(CER)은 평균 32%에 달했으며, EEG(CER: 67%)를 크게 능가했습니다. 최고의 참가자의 경우, 이 모델은 19%의 CER을 달성하고 훈련 세트 이외의 다양한 문장을 완벽하게 해독할 수 있습니다. 오류 분석 결과 해독은 운동 과정에 의존하는 것으로 나타났지만, 오타 분석 결과에는 더 높은 수준의 인지적 요인도 포함되어 있는 것으로 나타났습니다. 전반적으로 이러한 결과는 침습적 방법과 비침습적 방법 사이의 간극을 좁히고 의사소통이 불가능한 환자를 위한 안전한 뇌-컴퓨터 인터페이스 개발의 길을 열어줍니다.

논문 링크 - https://ai.meta.com/research/publications/brain-to-text-decoding-a-non-invasive-approach-via-typing/?utm_source=pytorchkr&ref=pytorchkr

Self-Play를 통한 강화학습

논문 소개

LLM에게 복잡한 문제 풀이를 가르치기 위해, 모델이 자체적으로 문제를 설정하고 풀며 보상을 주고받는 RLSP(Reinforcement Learning via Self-Play) 기법이 제안되었습니다.

모델은 스스로 다양한 해법을 시도하고(탐험 보상), 결과를 검증해가며 자기 학습을 진행합니다.
세 단계 학습(지도 학습 → 보상 기반 탐험 → 결과 검증을 통한 RL)을 거치면서, 모델은 완성도 높은 해법을 찾기 위한 ‘알고리즘적 사고’를 점차 터득하게 됩니다.
8B와 32B 등 상대적으로 작은 규모 모델에서도 수학 문제(MATH, 올림피아드 문제)에 대해 큰 폭의 성능 향상이 보고되었습니다.

논문 초록

저희는 셀프 플레이를 통한 강화 학습(RLSP)이라는 사후 학습 프레임워크를 제안합니다. RLSP에는 세 단계가 포함됩니다: (1) 추론 과정의 사람 또는 합성 데모를 통한 감독된 미세 조정, (2) 다양하고 효율적인 추론 행동을 장려하기 위한 탐색 보상 신호 사용, (3) 보상 해킹을 방지하면서 정확성을 보장하기 위한 결과 검증기를 사용한 RL 훈련입니다. 핵심 혁신은 PPO 훈련 중 탐색 신호와 정답 신호를 분리하여 성능과 효율성을 개선하기 위해 신중하게 균형을 맞추는 것입니다.
수학 영역의 경험적 연구에 따르면 RLSP는 추론 능력을 향상시키는 것으로 나타났습니다. Llama-3.1-8B-Instruct 모델에서 RLSP는 MATH-500 테스트 세트에서 성능을 23% 향상시킬 수 있으며, AIME 2024 수학 문제에서 Qwen2.5-32B-Instruct는 RLSP로 인해 10% 향상되었습니다. 그러나 이 연구에서 더 중요한 발견은 모델이 더 많은 중간 단계를 수행하도록 장려하는 가장 단순한 탐색 보상에도 불구하고 RLSP를 사용하여 훈련된 모델이 역추적, 아이디어 탐색, 검증과 같은 몇 가지 새로운 행동을 보였다는 것입니다. 이러한 결과는 RLSP 프레임워크가 확장 시 LLM에서 복잡한 추론 능력의 출현을 가능하게 하는 데 충분할 수 있음을 보여줍니다. 마지막으로, CoT의 단계 수가 증가할수록 LLM의 계산 능력이 증가한다는 놀라운 결과에서 영감을 받아 RLSP 검색 전략이 LLM에 더 적합한 이유에 대한 이론을 제안합니다 \cite{li2024chain,merrill2023expressive}.

논문 링크 - https://arxiv.org/abs/2502.06773?utm_source=pytorchkr&ref=pytorchkr

대규모 추론 모델을 활용한 알고리즘 대회 코딩

논문 소개

OpenAI의 연구에서, 알고리즘 대회에 특화된 모델(o1-ioi)과 범용 대규모 모델(o3)의 성능을 비교한 결과가 제시되었습니다.

컴퓨팅 경량화를 위해 특수 전략이 적용된 ‘전문 모델’도 어느 정도 성능을 보였으나, 충분히 규모를 키운 범용 모델이 오히려 IOI급 대회 문제를 더 높은 수준에서 풀어냈습니다.
RL 미세 조정을 추가하면 두 모델 모두 성능 향상을 보이지만, 대형 범용 모델이 결과적으로 더 높은 정답률을 달성했습니다.
코딩과 같이 복잡한 추론이 필요한 과제에서도, ‘특화 설계’보다는 스케일링이 궁극적인 해법이 될 수 있음을 시사합니다.

논문 초록

대규모 언어 모델(LLM)에 강화 학습을 적용하면 복잡한 코딩 및 추론 작업에서 성능이 크게 향상된다는 것을 보여줍니다. 또한 2024년 국제 정보학 올림피아드(IOI)에서 경쟁하기 위해 수작업으로 설계된 추론 전략을 사용하는 도메인 전용 시스템인 o1-ioi와 범용 추론 모델인 OpenAI o1 및 초기 체크포인트인 o3를 비교합니다. 저희는 2024 IOI에서 o1-ioi로 실시간 경쟁을 펼쳤으며, 수작업으로 만든 시험 시간 전략을 사용하여 49번째 백분위수 안에 들었습니다. 완화된 경쟁 제약 조건에서 o1-ioi는 금메달을 획득했습니다. 그러나 o3와 같은 후기 모델을 평가할 때, 수작업으로 만든 도메인별 전략이나 완화된 제약 조건 없이도 o3가 금메달을 획득한 것으로 나타났습니다. 연구 결과에 따르면 o1-ioi와 같은 전문화된 파이프라인이 확실한 개선 효과를 제공하지만, 확장된 범용 o3 모델은 수작업으로 만든 추론 휴리스틱에 의존하지 않고도 이러한 결과를 능가하는 것으로 나타났습니다. 특히, o3는 2024 IOI에서 금메달을 획득하고 엘리트 인간 경쟁자들과 동등한 수준의 코드포스 등급을 획득했습니다. 전반적으로 이러한 결과는 도메인별 기술에 의존하지 않고 범용 강화 학습을 확장하는 것이 경쟁 프로그래밍과 같은 추론 영역에서 최첨단 AI를 향한 강력한 경로를 제공한다는 것을 보여줍니다.

논문 링크 - https://arxiv.org/abs/2502.06807?utm_source=pytorchkr&ref=pytorchkr

효율적으로 추론하도록 언어 모델 학습시키기

논문 소개

이 논문에서는 동적 계산 할당 기법을 통해, 모델이 문제 난이도에 따라 추론 단계(Chain-of-Thought)를 가변적으로 선택하도록 유도하는 방법을 제안합니다.

쉽게 해결할 수 있는 문제는 빠르게 결론을 내리고, 어려운 문제에는 더 많은 추론 단계를 할당해 효율성을 높입니다.
RL을 사용하여 모델을 학습함으로써, 정답을 맞히는 동시에 계산 비용을 최소화하는 방향으로 스스로 학습합니다.
적은 단계로도 해결이 가능한 문제에 대해 불필요한 ‘오버씽킹’을 방지해 인퍼런스 비용이 크게 절감되면서 성능 손실은 거의 없는 결과가 나타났습니다.

논문 초록

모델 크기와 학습 데이터의 확장은 대규모 언어 모델(LLM)의 성능에 큰 발전을 가져왔습니다. 그러나 이 접근법의 수익률이 감소함에 따라 특히 고급 추론이 필요한 작업에서 모델 기능을 개선할 수 있는 대안이 필요해졌습니다. 긴 생각의 사슬을 활용하는 대규모 추론 모델은 문제 해결 능력에서 전례 없는 혁신을 가져다주지만, 세대를 거듭할수록 상당한 구축 비용이 발생합니다. 추론 비용을 줄이는 것은 이러한 모델의 경제성, 사용자 경험, 환경적 지속 가능성을 위해 매우 중요합니다.
이 연구에서는 대규모 추론 모델을 효율적으로 추론할 수 있도록 훈련하는 방법을 제안합니다. 보다 정확하게는 강화 학습(RL)을 사용하여 추론 모델을 훈련시켜 작업 복잡도에 따라 추론 시간 계산을 동적으로 할당하는 것입니다. 이 방법은 정확성을 유지하면서 불필요한 계산 오버헤드를 최소화하도록 모델을 장려하여 상당한 효율성 향상을 달성합니다. 이를 통해 단일 하이퍼파라미터를 통해 제어되는 다양한 효율성 수준의 추론 모델 제품군을 도출할 수 있습니다. 두 개의 개방형 대규모 추론 모델에 대한 실험을 통해 정확도는 대부분 유지하면서 추론 비용을 크게 절감할 수 있음을 입증했습니다.

논문 링크 - https://arxiv.org/abs/2502.04463?utm_source=pytorchkr&ref=pytorchkr

LM2: 대규모 메모리 모델

논문 소개

LM2(Large Memory Models)는 트랜스포머에 외부 메모리 모듈을 추가하여 장기 문맥 처리와 복잡한 추론 능력을 강화한 모델 아키텍처입니다.

모델이 전용 메모리 저장소에 정보를 읽고 쓰며, 이를 교차 어텐션을 통해 효과적으로 활용할 수 있습니다.
BABILong과 같은 긴 맥락이 필요한 벤치마크에서 기존 대비 최대 86% 성능 향상을 보였으며, 일반 지식 테스트(MMLU)에서도 향상된 결과를 달성했습니다.
장시간 대화나 여러 단계를 거치는 추론 과제에서 모델이 목표를 오래 유지하고 일관성 있게 추론하도록 돕는 중요한 역할을 합니다.

논문 초록

이 논문에서는 다단계 추론, 관계형 논증, 긴 컨텍스트에 분산된 정보 합성에서 표준 트랜스포머의 한계를 해결하기 위해 보조 메모리 모듈로 강화된 디코더 전용 트랜스포머 아키텍처인 대용량 메모리 모델(LM2)을 소개합니다. 제안된 LM2는 문맥 표현 저장소 역할을 하는 메모리 모듈을 통합하여 교차 주의를 통해 입력 토큰과 상호 작용하고 게이팅 메커니즘을 통해 업데이트합니다. 트랜스포머의 범용 기능을 유지하기 위해 LM2는 원래의 정보 흐름을 유지하면서 보완적인 메모리 경로를 통합합니다. BABILong 벤치마크의 실험 결과에 따르면 LM2 모델은 모든 작업에서 평균적으로 메모리 증강 RMT 모델보다 37.1%, 기본 모델인 Llama-3.2 모델보다 86.3% 더 뛰어난 성능을 보였습니다. LM2는 멀티 홉 추론, 수치 추론, 대규모 문맥 질문 답변에서 탁월한 성능을 발휘합니다. MMLU 데이터 세트에서는 사전 학습된 바닐라 모델에 비해 5.0%의 성능 향상을 달성하여 메모리 모듈이 일반적인 작업에서 성능을 저하시키지 않음을 입증했습니다. 또한, 분석에서는 메모리 해석 가능성, 메모리 모듈의 효율성, 테스트 시간 동작에 대해 살펴봅니다. 이러한 연구 결과는 Transformer 아키텍처를 개선하는 데 있어 명시적 메모리의 중요성을 강조합니다.

논문 링크 - https://arxiv.org/abs/2502.06049?utm_source=pytorchkr&ref=pytorchkr

프롬프트 캐싱 Auditing

논문 소개

스탠퍼드 연구진은 LLM API에서의 프롬프트 캐싱이 사용자 프롬프트를 타이밍 차이를 통해 노출시키는 보안 취약점을 지적했습니다.

글로벌 캐싱 정책을 적용할 경우, 이전에 입력된 프롬프트와 일치하거나 유사한 요청은 응답이 빨라지는 현상이 생길 수 있습니다. 공격자는 이를 이용해 다른 사용자 요청을 추정할 수 있습니다.
저자들은 통계적 감사 기법을 통해 캐싱이 발생하는지 검증하는 방법론을 제시했으며, 주요 API 공급자들이 이에 대응해 캐싱 정책을 변경했다고 보고합니다.

논문 초록(Abstract)

대규모 언어 모델(LLM)의 프롬프트 캐싱은 데이터에 따라 타이밍 차이가 발생하는데, 캐시된 프롬프트는 캐시되지 않은 프롬프트보다 더 빠르게 처리됩니다. 이러한 타이밍 차이는 사이드 채널 타이밍 공격의 위험을 초래합니다. 예를 들어, 캐시가 사용자 간에 공유되는 경우 공격자는 빠른 API 응답 시간에서 캐시된 프롬프트를 식별하여 다른 사용자의 프롬프트에 대한 정보를 알아낼 수 있습니다. 프롬프트 캐싱은 개인정보 유출의 원인이 될 수 있으므로 API 제공업체의 캐싱 정책에 대한 투명성이 중요합니다. 이를 위해 저희는 실제 LLM API 제공업체의 프롬프트 캐싱을 감지하기 위한 통계적 감사를 개발하고 수행합니다. OpenAI를 포함한 7개 API 제공업체에서 사용자 간 글로벌 캐시 공유를 감지하여 사용자의 프롬프트에 대한 잠재적인 개인정보 유출을 감지했습니다. 프롬프트 캐싱으로 인한 타이밍 변화도 모델 아키텍처에 대한 정보 유출을 초래할 수 있습니다. 즉, 이전에는 공개적으로 알려지지 않았던 OpenAI의 임베딩 모델이 디코더 전용 트랜스포머라는 증거를 발견했습니다.

논문 링크 - https://arxiv.org/abs/2502.07776?utm_source=pytorchkr&ref=pytorchkr

언어모델의 추론 능력을 증대시키기 위한 셀프-백트래킹

논문 소개

LLM의 추론 견고성을 높이기 위해, 모델이 자기 추론 과정 도중 백트래킹(backtracking)을 수행할 수 있도록 한 기법이 제안되었습니다.

전통적 탐색 알고리즘처럼, 모델이 어느 단계에서 “이전 단계가 틀렸다”고 판단하면 되돌아가 다른 경로를 시도할 수 있게 합니다.
이 과정에서 모델이 스스로 오류를 인식하고 수정하는 학습 프로세스를 거쳐 복잡한 문제에서도 높은 성공률을 기록합니다.
오답률이 높은 스텝에서 즉시 교정이 이뤄지므로, 연쇄적 오류를 줄이고 더욱 신뢰도 높은 해답을 도출합니다.

논문 초록

느린 사고 메커니즘을 대규모 언어 모델(LLM)에 통합하면 OpenAI의 o1과 같은 시스템에서 볼 수 있듯이 레벨 2 AGI 리서처를 달성할 수 있는 유망한 방법이 될 수 있습니다. 그러나 비효율적인 과다 사고와 보조 보상 모델에 대한 과도한 의존 등 몇 가지 중요한 과제가 남아 있습니다. 이러한 한계는 효과적인 추론의 핵심 요소인 검색 프로세스를 내재화하지 못하는 LLM의 무능력에서 비롯된다는 점을 지적합니다. 이 문제를 해결하기 위한 중요한 단계는 LLM이 기존 검색 알고리즘의 기본 연산인 백트래킹 시점과 위치를 자율적으로 결정할 수 있도록 하는 것입니다. 이를 위해 학습과 추론 과정에서 LLM에 백트래킹 기능을 제공하는 셀프 백트래킹 메커니즘을 제안합니다. 이 메커니즘은 자기 개선을 통해 느린 사고 프로세스를 빠른 사고로 전환함으로써 추론 능력뿐만 아니라 효율성까지 향상시킵니다. 경험적 평가에 따르면 우리의 제안은 LLM의 추론 능력을 크게 향상시켜 최적 경로 감독 미세 조정 방식에 비해 40% 이상의 성능 향상을 달성했습니다. 이 연구는 더욱 발전되고 강력한 추론자를 개발할 수 있는 새롭고 유망한 경로를 제시했다고 생각합니다.

논문 링크 - https://arxiv.org/abs/2502.04404?utm_source=pytorchkr&ref=pytorchkr

LLM을 적응시키기 위한 추론 강화: SOLOMON 아키텍처

논문 소개

IBM 연구진은 반도체 레이아웃 설계 등의 까다로운 공간 추론 문제에 대응하기 위해 SOLOMON이라는 신경영감형 LLM 구조를 개발했습니다.

여러 개의 “Thought Generators”(서로 다른 LLM)와 “Thought Assessor”를 결합한 다중 에이전트 방식으로, 단일 모델의 맹점이나 계산 실수를 상호 보완합니다.
특히 2D·3D 설계에서 단위 변환 오류, geometry 처리 오류 등 기존 LLM이 자주 범하는 실수를 크게 줄였습니다.
향후 여러 단계를 거치는 엔지니어링 및 디자인 업무에 적용 가능성을 시사합니다.

논문 초록

이 논문에서는 도메인별 애플리케이션을 위한 기초 모델의 적응성을 향상시키는 새로운 신경 기반 대규모 언어 모델(LLM) 추론 네트워크 아키텍처인 SOLOMON을 소개합니다. 반도체 레이아웃 설계의 사례 연구를 통해 SOLOMON이 어떻게 프롬프트 엔지니어링과 인컨텍스트 학습 기술을 활용하여 범용 LLM을 특수 작업에 신속하게 적용할 수 있는지를 보여드립니다. 실험을 통해 공간 추론과 실제 문제에 도메인 지식을 적용하는 데 있어 LLM이 직면하는 어려움을 살펴봅니다. 실험 결과, 솔로몬 인스턴스는 기본 LLM 인스턴스보다 훨씬 뛰어난 성능을 보였으며 최첨단 추론 모델인 o1-preview와 비슷한 성능을 달성한 것으로 나타났습니다. 새로운 정보와 변화하는 요구사항에 대응하여 지속적으로 학습하고 적응하며 진화할 수 있는 적응형 AI 시스템 개발을 위한 향후 연구 방향에 대해 논의합니다.

논문 링크 - https://arxiv.org/abs/2502.04384?utm_source=pytorchkr&ref=pytorchkr

ReasonFlux: 사고 템플릿 확장을 통한 계층적 LLM 추론

논문 소개

ReasonFlux 프레임워크는 체계화된 사고 단계를 미리 정의해둔 템플릿 라이브러리를 활용해 LLM을 효율적으로 미세 조정하는 방법을 제시합니다.

약 500개의 “사고 템플릿”을 구성해, 모델이 문제 해결 시 해당 템플릿들을 조합하여 추론 과정을 구성합니다.
체계적인 강화학습을 통해, 모델은 어떤 템플릿을 어떤 순서로 사용할지 학습하여 복잡한 문제를 보다 신속하고 정확하게 해결합니다.
실제 MATH, AIME 등 수학 문제 벤치마크에서 최고 수준의 성능을 기록했으며, 상대적으로 적은 GPU 자원으로도 높은 정확도를 달성했습니다.

논문 초록

우리는 사고 템플릿 확장을 통한 계층적 LLM 추론이 추론 검색 공간을 효과적으로 최적화하고 OpenAI o1-preview 및 DeepSeek V3와 같은 강력한 LLM의 수학적 추론 기능을 능가할 수 있음을 제시합니다. 단 8개의 GPU로 ReasonFlux-32B 모델을 훈련하고 (i) 유사하거나 관련성이 높은 추론 문제로 일반화할 수 있는 약 500개의 높은 수준의 사고 템플릿을 포함하는 구조화되고 일반적인 사고 템플릿 라이브러리, (ii) 긴 CoT 대신 일련의 사고 템플릿에 계층적 강화 학습을 수행하여 복잡한 문제를 점차적으로 처리하기 위한 최적의 템플릿 궤적을 계획하도록 기본 LLM을 최적화, (iii) 추론 시 사고 템플릿을 적응적으로 확장하여 계층적 LLM 추론을 가능하게 하는 새로운 추론 확장 시스템 등 3가지 혁신을 도입하고 있습니다. 순차적 사고 템플릿을 포함하는 템플릿 궤적을 통해 ReasonFlux-32B는 수학 추론 기능을 최첨단 수준으로 크게 발전시켰습니다. 특히 수학 벤치마크에서 91.2%의 정확도를 달성하고 o1-preview를 6.7% 능가하는 결과를 얻었습니다. 미국 수학 올림피아드(AIME) 벤치마크에서 ReasonFlux-32B는 평균 56.7%의 문제를 해결하여 o1-preview와 DeepSeek-V3를 각각 27%, 45% 능가합니다. 코드는 이 https URL에 있습니다.

논문 링크 - https://arxiv.org/abs/2502.06772?utm_source=pytorchkr&ref=pytorchkr

thon

이전 포스트

25년 02월 1주차 논문 요약

다음 포스트

25년 02월 2주차 논문 요약

25년 02월 1주차 논문 요약

25년 2월 3주차 논문 요약

0개의 댓글