[Paper] Adaptive Graph of Thoughts: Test-Time Adaptive Reasoning Unifying Chain, Tree, and Graph Structures

Stuart Kim·2025년 5월 14일
post-thumbnail

paper link: https://arxiv.org/abs/2502.05078


해결하고자 하는 문제와 배경

이 논문은 LLM의 추론 능력을 향상시키는 문제를 다루고 있습니다. 기존의 접근법들(예: Chain of Thought (CoT), Tree of Thoughts (ToT), Graph of Thoughts (GoT), Autonomous Iteration of Thought (AIoT))은 각각 선형, 트리, 그래프 구조를 활용하여 복잡한 문제를 해결하려고 했지만, 이들 방법은 사전 학습 또는 강화학습을 통해 모델을 수정하는 방식이기 때문에 계산 비용이 높고, 특정 프롬프팅 전략에 민감한 한계를 가졌습니다.

해결 방법

저자들은 Adaptive Graph of Thoughts (AGoT) 라는 새로운 동적이고 구조적 재귀 추론 프레임워크를 제안합니다. AGoT는 테스트 타임(test-time)에만 추론을 수행하며, 문제를 재귀적으로 여러 하위 문제로 분해하여 동적으로 Directed Acyclic Graph(DAG, 방향성 비순환 그래프)를 구성합니다.

알고리즘

예시

  • 복잡한 문제를 여러 하위 문제로 나누어 재귀적으로 처리합니다.
  • 노드(node)의 복잡성을 판단하여 추가적인 재귀 분석이 필요한 부분만을 선택적으로 확장합니다.
  • CoT의 순차성, ToT의 분기 전략, GoT의 그래프 유연성을 통합하여 장점을 모두 활용합니다.

이러한 과정은 특별히 사전 학습된 모델 수정 없이 도 높은 성능을 달성하게 합니다.

결과

AGoT는 다양한 추론 벤치마크(예: GPQA 과학적 추론 문제, HotpotQA 멀티홉 검색 문제, 미니 크로스워드 탐색적 문제 등)에서 기존 방법들보다 뛰어난 성능을 보여줍니다. 특히, 과학적 추론 벤치마크인 GPQA에서 기존의 직접 입력-출력(IO) 방식보다 최대 46.2% 높은 정확도를 달성했습니다.

주요 벤치마크 결과는 다음과 같습니다:

  • GPQA (과학적 추론): AGoT는 셔플된 문제에서 GPT-4o-mini 대비 32.4%, GPT-4o 대비 46.2% 개선된 성능을 보였습니다.
  • 멀티홉 검색 문제(HotpotQA, MoreHopQA, HybridQA): 기존 방식 대비 최대 30.9% 향상된 성능.
  • 탐색적 문제(Crossword, Game of 24): 특히, "Game of 24"에서 기존 방식 대비 400% 향상된 성능을 기록했습니다.

평가 테이블

연구의 중요성

AGoT의 중요성은 다음과 같습니다:

  • 계산 효율성: 모델을 추가로 학습하거나 파인튜닝하지 않고 추론 단계에서만 개선하여 자원 소모가 적습니다.
  • 범용성 및 확장성: 특정 문제에 국한되지 않고 다양한 추론 작업(논리적 추론, 정보 검색, 탐색적 문제해결)에 범용적으로 적용 가능함을 보였습니다.
  • 강력한 성능: 계산 비용이 큰 기존 강화학습 기반의 모델 미세 조정(distillation) 방법과 비슷하거나 더 나은 성능을 달성했습니다.

결론적으로, AGoT는 계산 자원과 시간 측면에서 매우 효율적이면서도 범용적인 추론 성능을 높일 수 있는 강력한 접근법으로, 향후 LLM을 실용적으로 응용하는 데 있어 중요한 기반이 될 수 있다고 평가됩니다.

profile
AI Engineer 의 개발 블로그입니다!

0개의 댓글