[Review] Less is More: Recursive Reasoning with Tiny Networks (TRM)

Jeong-yun Lee·2025년 11월 2일

Paper Review

목록 보기
5/5

Jolicoeur-Martineau, Alexia. "Less is More: Recursive Reasoning with Tiny Networks.", arXiv, 2025.

https://github.com/SamsungSAILMontreal/TinyRecursiveModels


시작하며

headlines

리뷰에 앞서: 2025년 10월, 삼성 AI 연구팀 SAIL Montreal에서 새로운 재귀 추론 모델을 공개했습니다.
국내 기사들에서는 “Google Gemini를 이겼다”라는 문구로 꽤 화제가 됐죠.

솔직히 결론부터 말하면, “맞지만, 반은 틀린 이야기”입니다. 왜 그런지 논문 내용을 차근차근 보며 이해해봅시다.

연구팀은 구현 코드를 GitHub에 공개했습니다. 직접 코드와 함께 보면 이해가 더 빨라요.
https://github.com/SamsungSAILMontreal/TinyRecursiveModels


LLM만 알면 부족하다? HRM부터 보자

우리가 익숙한 건 LLM(Large Language Model, 대규모 언어모델) 이고, HRM(Hierarchical Reasoning Model, 계층적 추론 모델) 은 생소할 수 있어요.
한 줄 요약: HRM은 “재귀(Recursion, 재귀)”를 활용해 작은 네트워크로 깊은 추론을 흉내 내는 방법론입니다.
“층과 파라미터를 더 쌓는 대신, 같은 네트워크를 여러 번 돌려 단계적으로 답을 개선한다”는 아이디어예요.

삼성 연구팀은 이 HRM을 더 단순하게 만든 TRM(Tiny Recursive Model, 초소형 재귀 모델, 파라미터 7M) 을 제안합니다.
논문에 따르면 ARC-AGI-1 45%, ARC-AGI-2 8% 성능을 냈고, 이는 공개된 일부 LLM(DeepSeek R1, Gemini 2.5 Pro 등)보다 높은 수치입니다. 여기서 “Gemini 이김” 헤드라인이 나왔죠. 하지만 비교 과제와 설정이 다릅니다. (아래에서 설명)


왜 HRM인가? LLM의 CoT/TTC 피로감

  • CoT(Chain-of-Thought, 연쇄사고): 답을 한 번에 뽑지 않고 중간 추론 과정을 문장으로 풀어쓰는 방식.
  • TTC(Test-Time Compute, 테스트 시 계산 증대): 추론 단계(샘플 수/깊이)를 늘려 정답률을 올리는 트릭.

이 방식들, 효과는 있어요. 하지만

  • 계산비용이 크고,
  • 잘못된 추론 경로(reasoning trace) 를 만들면 오히려 성능이 떨어집니다.

ARC-AGI(Abstraction & Reasoning Corpus, 추상화·추론 벤치마크) 같은 문제에서는 LLM이 여전히 취약합니다.
그래서 “말(텍스트)” 대신 “잠재표현(latent)”에서 단계적 추론을 하자는 접근, 즉 HRM이 주목받았습니다.

한 줄 설명:
HRM = “말로 생각하는(CoT) 대신, 내부 잠재상태(z) 를 여러 번 업데이트하면서 점점 답을 다듬는다.”


HRM 구조 요약

HRM은 4개 구성요소로 이루어집니다.

  1. 입력 임베딩 ( f_I ) (Input Embedding, 입력 임베딩)
  2. 저주파 재귀 네트워크 ( f_L ) (Low-level Recurrent Net, 세부 추론용)
  3. 고주파 재귀 네트워크 ( f_H ) (High-level Recurrent Net, 전체 통합용)
  4. 출력 헤드 ( f_O ) (Output Head, 분류/예측)

두 네트워크 (f_L, f_H) 를 서로 다른 주기로 반복 호출합니다.

  • ( f_L ): 자주 돌아가며 세부(fine) 업데이트
  • ( f_H ): 가끔 돌아가며 전체(coarse) 통합

Fast Forward(노그래드) → Detach → 1-step Grad

forward pass

단계함수 호출gradient의미
fL 2회❌ no_grad세부 warm-up
fH 1회❌ no_grad전체 통합
fL 1회❌ no_graddetach 직전 마지막 정련
detach연산 그래프 차단
fL 1회✅ grad학습용 세부 업데이트
fH 1회✅ grad학습용 전체 업데이트

핵심 직관:
Fast forward = “모델이 먼저 몇 번 생각해보고, 마지막 생각만 학습한다.”

여기서 HRM은 ( (z_L, z_H) )가 고정점(fixed point) 으로 수렴한다고 가정하고,
IFT(Implicit Function Theorem, 암시함수정리) + 1-step gradient approximation(단일 단계 기울기 근사) 를 사용해 마지막 두 단계만 역전파합니다.
메모리를 크게 아낄 수 있죠.

psuedo code of HRM

Deep Supervision(깊은 감독)과 Effective Depth(효과적 깊이)

이 과정을 여러 번 반복하며, 이전 잠재상태 ((z_H, z_L)) 를 다음 단계의 초기값으로 재사용합니다.
최대 16단계 반복. 이때 효과적 깊이는:

Nsup×nlayers×(n+1)×T=16×4×(2+1)×2=384N_{sup} \times n_{layers} \times (n+1) \times T = 16 \times 4 \times (2+1) \times 2 = 384

기호의미
(n)(f_L) 반복 횟수2
(+1)사이클 내 (f_H) 1회1
(T)사이클 반복2
(N_{\text{sup}})supervision 단계16
(n_{\text{layers}})각 네트워크 층 수4

Tip — Deep Supervision, 깊은 감독
“중간 결과에도 정답 신호를 줘서, 점진적으로 더 나은 상태로 수렴하게 만든다”는 일반 기법.

ACT(Adaptive Computational Time, 적응적 계산시간)

각 입력별로 “여기서 멈출까? 더 돌릴까?”를 학습합니다.
HRM은 Q-learning으로 halt/continue 두 신호를 학습하는데,
continue 손실 계산 때문에 추가 forward가 한 번 더 필요(= 학습 시간 2배).


HRM의 한계

  • IFT + 1-step gradient 를 쓰려면 고정점 수렴이 전제인데,
    실험적으로 잔차가 0으로 가지 않아 수렴 가정이 흔들립니다.
  • ACT(Q-learning) 때문에 학습당 forward 2회 → 비용 상승.
  • 생물학 비유(고저주파 뇌파 모방 등)에 기대는 설계 서사가 복잡도↑, 재현성↓.

TRM: 단 하나의 Tiny 네트워크로 전부 해결

핵심 컨셉: “Less is More(작을수록 낫다)”

  1. Full Recursion Backprop

    • 고정점 가정/IFT 미사용.
    • Fast forward 제거, 모든 재귀 단계에 gradient. → 정보손실 없음.
  2. z 해석 단순화

    • ( z_H ) → 현재 답의 임베딩 (y)
    • ( z_L ) → 잠재 추론 상태 (z)
    • 결국 (x, y, z) 를 반복 입력하며 자기답을 스스로 개선.
  3. Single Network

    • ( f_L )·( f_H ) 를 하나로 통합 (입력 구성으로 역할 구분).
    • 파라미터 27M → 7M.
  4. 단순 Halting (Non-RL ACT)

    • Q-learning 삭제.
    • “맞으면 멈춰라” 이진 halt loss만 학습.
    • 추가 forward 불필요학습 시간 ½.
  5. Less is More

    • 4층 → 2층으로 줄였더니 일반화 성능↑ (과적합↓).
    • 작은 고정 길이 입력(예: Sudoku)에서는 Self-Attention → MLP 대체가 더 좋음.
  6. EMA(Exponential Moving Average)

    • 작은 데이터에서 학습 안정화성능 상승.

실험 환경 & 하드웨어

  • GPU: NVIDIA L40S(40GB), H100(80GB)
  • Sudoku/Maze: L40S 1장 기준 36h 내 학습 가능
  • ARC-AGI-1/2: H100 4장, 약 3일 학습

요지는 간단해요: 거대 LLM 없이도 비교적 작은 자원으로 강한 재귀 추론이 가능했다는 점.


데이터셋 안내

Dataset설명
Sudoku-Extreme9×9 스도쿠(Train 1K, Test 423K), 극난이도
Maze-Hard30×30 미로, 최단경로 > 110 (경로 추론)
ARC-AGI-1/2패턴 변환·추상화 벤치마크 (AI 난이도 최상)

학습 세팅(요지): AdamW(β₁=0.9, β₂=0.95), hidden=512, N_sup=16
TRM: 2-layer, (T=3, n=6) / HRM: 4-layer×2, (T=2, n=2), EMA(0.999, TRM만)

(T, n) 은 경험적으로 최적 조합.


결과 핵심

sudoku
Sudoku-Extreme: 동일 조건에서 TRM이 HRM을 크게 앞섬.
일부 세팅은 재귀가 깊어 TRM이 OOM 되기도 하지만, 정확도 이득이 큼.

puzzle
Puzzle 결과: 대형 LLM 다수는 퍼즐 자체를 못 풂(0%).
HRM/TRM만 퍼즐을 풀며, TRM이 큰 격차로 우세.
입력이 작을 땐 MLP-TRM, 클 땐 Attn-TRM 이 유리.

ARC
ARC-AGI: LLM 상위 모델(Grok-4 계열)이 리더보드 상단.
직접 지도학습 계열(TRM-Att)7M 파라미터로 HRM(27M)대형 LLM 일부를 능가.
0.01% 파라미터로 Gemini를 이겼다”는 문구는 특정 설정/벤치마크 한정입니다.


기여(Contributions)

구분내용효과
① 단일 네트워크 재귀 (Single-Network Recursion)( fLf_L, fHf_H ) 통합27M → 7M, 단순+빠름
② 전체 재귀 역전파 (Full-Recursion Backprop)IFT/1-step 미사용이론적 불확실성 해소, 정보손실↓
③ 단순 Halting (Non-RL ACT)Q-learning 제거forward 1회/step, 속도 2×
④ Less is More4층→2층일반화↑, 과적합↓
⑤ Attention-free 옵션고정 짧은 L에서 MLP가 유리Sudoku SOTA(87%)
⑥ EMA지수 이동 평균학습 안정화/성능↑
⑦ 의미작은 재귀 모델이 LLM 일부 능가“큰 모델만이 정답은 아니다” 증명

한계(Limitations)

항목내용영향
① Supervised 전용입력→단일 정답 구조생성형/복수 정답 확장 필요
② 이론 미완“재귀가 왜 강한 정규화인가?”경험적 성공 ↔ 이론 부족
③ 스케일소규모 데이터셋 중심대규모 도메인 검증 필요
④ 메모리full backprop로 (n,T)↑ 시 OOM(n>6, T>3) 부담
⑤ 작업 의존 튜닝Sudoku=MLP, Maze/ARC=Attention완전 범용 아님
⑥ 해석성단계별 (z) 변화 해석 어려움reasoning trace 분석 과제

그래서, “Gemini를 이겼다”는 말은?

  • 특정 퍼즐/ARC 문제에서, 특정 세팅으로, 파라미터 0.01% 수준의 TRM일부 LLM 점수보다 높다사실.
  • 하지만 일반 언어 과제 전반에서 TRM이 Gemini를 대체한다? → 아님.
  • 요점: “거대 LLM 외에도, 작은 재귀 모델이 특정 추론 과제에서 매우 강력할 수 있다.”

마무리

이 논문은 “작아도 깊게 생각할 수 있다”는 걸 깔끔하게 보여줍니다.
Fast-forward/IFT/ACT의 복잡함을 걷어내고, 단일 작은 네트워크재귀 전체를 학습하게 만든 점이 포인트예요.
다음 과제는 생성형 확장, 대규모 데이터 검증, 그리고 재귀의 이론적 힘을 더 명확히 설명하는 일입니다.

profile
push hard 🥕

1개의 댓글

comment-user-thumbnail
2025년 11월 3일

아직 효과를 보기 위해서는 조건들이 여러 가지 달리고 방법론에 대한 확실한 규명이 안되었지만 적은 데이터로도 깊은 직관을 얻을 수 있다는 건 확실히 매력적이라고 생각됩니다..! 최근 이슈와 연계하여 설명해주셔서 더 흥미롭게 읽을 수 있었습니다

답글 달기