논문 리뷰 : ReAct : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

서준형·2025년 12월 29일

논문 리뷰

목록 보기

8/11

논문 링크 : https://arxiv.org/abs/2210.03629

❖ 논문 선정 이유

이 논문을 선택한 이유는 최근 LLM 연구가 Agent 중심으로 확장되고 있기 때문이며 지금까지 LLM과 멀티모달 논문을 읽어오며 모델의 표현 능력에 집중하였음
ReAct는 그 표현을 실제 행동과 의사결정으로 연결하는 전환점을 제시하며 대학원에서 agent 연구를 이해하기 위한 출발점으로 적합한 논문이라고 느꼈음

❖ 1. INTRODUCTION

ReAct 논문은 인간 지능의 핵심 특징 중 하나인 언어적 추론(Reasoning)과 목표 지향적 행동(Acting)의 결합에서 출발함
인간은 문제를 해결할 때 단순히 생각만 하거나 행동만 하는 것이 아니라 상황을 언어로 해석하고 그에 맞는 행동을 수행한 뒤 행동의 결과를 다시 추론에 반영하는 과정을 반복하는데 기존의 LLM은 추론과 행동을 서로 분리된 문제로 다뤄왔음
Chain-of-Thought(CoT) 기반 접근은 단계적 추론에는 강하지만 외부 정보 탐색이나 환경과의 상호작용이 불가능해 지식이 부족한 경우 hallucination 이나 오류 전파 문제가 발생했고 반대로 도구 사용이나 환경 조작에 초점을 둔 접근들은 행동 자체는 가능하지만 고수준의 계획이나 추론 과정이 명확하지 않아 해석 가능성과 신뢰성 측면에서 한계를 가짐
이를 위해 ReAct는 언어 모델이 추론(Reasoning)과 행동(Action) 을 하나의 시퀀스 안에서 번갈아 생성하도록 유도하는 프레임워크를 제안함

추론(reasoning)과 행동(acting)을 분리해서 사용할 때 발생하는 한계를 직관적으로 보여줌
- Chain-of-Thought 방식은 단계적 추론은 가능하지만 외부 정보 탐색이나 환경 상호작용이 부족함
- Action-only 방식은 행동은 수행하지만 명확한 계획과 추론이 없어 실패하는 경우가 많음
반면 ReAct는 추론과 행동을 번갈아 수행하며 행동의 결과를 다시 추론에 반영함으로써 질문 응답과 환경 기반 태스크 모두에서 보다 안정적이고 정확한 문제 해결이 가능함을 보여줌

❖ 2. ReAct : SYNERGIZING ReaSONING + ActING

ReAct는 복잡한 문제를 해결하는 agent 환경에서 단순히 관측에 따라 행동을 선택하는 방식만으로는 한계가 있음을 지적함
Reasoning만 수행하는 Chain-of-Thought 방식은 외부 정보 탐색이나 환경 상호작용이 부족하고 반대로 행동만 수행하는 방식은 맥락을 이해하지 못해 잘못된 행동을 반복하는 문제가 발생함
이러한 한계를 해결하기 위해 ReAct는 agent의 행동 공간을 환경에 영향을 주는 행동(Action) 뿐 아니라 언어적 추론(Reasoning) 까지 포함하도록 확장함
Reasoning 은 환경을 직접 변화시키지는 않지만 현재 맥락을 정리하고 목표를 분해하며 향후 행동을 위한 계획을 수립하는 역할을 하여 추론과 행동이 분리되지 않고 하나의 연속적인 문제 해결 과정으로 연결되도록 함
중요한 점은 이 과정이 새로운 모델 학습 없이 사전 학습된 언어 모델에 few-shot 프롬프트만으로 구현된다는 것이며 이를 통해 ReAct 는 다양한 태스크에서 적용 가능한 직관적이고 해석 가능한 agent 프레임워크를 제시함

ReAct는 agent의 행동 공간에 언어적 추론을 명시적으로 포함시켜 추론과 행동이 분리되지 않은 문제 해결 과정을 만든

❖ 3. KNOWLEDGE-INTENSIVE REASONING TASKS

ReAct는 먼저 외부 지식 활용이 필수적인 추론 태스크에서 추론과 행동을 결합했을 때의 효과를 검증하며 대표적으로 다룬 태스크는 멀티-hop 질문 응답인 HotpotQA와 사실 검증 태스크인 Fever이며 모두 내부 지식만으로는 해결이 어렵고 외부 정보 검색이 필요한 문제들임
이 실험에서 ReAct는 Wikipedia API와 상호작용하며 필요한 정보를 단계적으로 검색하고
검색 결과를 바탕으로 다음 행동을 결정하고 행동(Action)이 단순한 정보 수집이 아니라
추론(Reasoning)에 의해 안내되는 과정임을 보여줌

실험 결과, ReAct는 Chain-of-Thought(CoT)나 Acting-only 방식보다 전반적으로 더 안정적인 성능을 보였으며 특히 Fever와 같이 사실성이 중요한 태스크에서는 외부 지식을 직접 확인하는 ReAct가 환각(hallucination)을 크게 줄이며 더 신뢰할 수 있는 답변을 생성함

반면 CoT는 추론 구조는 잘 형성하지만 사실 오류가 주요 실패 원인으로 나타났고 또한 분석 결과를 통해 ReAct의 장단점도 함께 드러났는데 ReAct는 검색이 실패하거나 비정보적인 결과를 가져오는 경우 추론이 쉽게 무너질 수 있지만 전반적으로는 사실 기반이고 해석 가능한 문제 해결 과정을 제공해줌
이를 보완하기 위해 ReAct와 CoT-SC를 상황에 따라 전환하거나 결합하는 전략을 제안하였고 이 실험은 ReAct가 단순히 행동을 추가한 모델이 아니라 내부 추론과 외부 지식 활용을 균형 있게 결합한 지식 집약적 추론 프레임워크임을 실험적으로 입증함

ReAct는 지식이 필요한 추론 태스크에서 외부 검색과 언어적 추론을 결합함으로써 환각을 줄이고 더 사실적이고 신뢰할 수 있는 문제 해결 과정을 보여줌

❖ 4. DECISION MAKING TASKS

앞선 지식 추론 태스크에 이어 이번에는 ReAct를 장기적인 계획과 환경 상호작용이 필요한 의사결정 태스크에 적용하는데 실험 대상은 텍스트 기반 가상 환경인 ALFWorld와 실제 온라인 쇼핑 환경을 모사한 WebShop임
두 환경 모두 보상이 희소하고 탐색 공간이 크기 때문에 단순 반응적 행동만으로는 해결이 어려움

ALFWorld

ALFWorld에서는 에이전트가 집 안을 탐색하며 고수준 목표(예: 특정 물건 찾기)를 달성해야 하며 ReAct는 sparse한 언어적 추론을 통해 목표를 하위 단계로 분해하고 현재 상태를 추적하며 다음 행동을 계획함
실험 결과 ReAct는 Act-only 및 imitation learning 기반 방법보다 현저히 높은 성공률을 보였으며 추론이 없는 경우 에이전트가 쉽게 상태를 놓치거나 목표를 잃는다는 점이 확인됨

WebShop

WebShop에서는 사용자의 자연어 요구를 만족하는 상품을 검색·선택·구매하는 과정이 필요하며 이 환경은 노이즈가 많고 비정형 텍스트가 혼재되어 있어 행동 선택의 난이도가 높음
ReAct는 추론을 통해 어떤 정보를 탐색해야 하는지 언제 구매를 결정해야 하는지를 판단함으로써 Act-only 방식 대비 성공률과 평균 점수 모두에서 큰 향상을 보임

내부 추론 vs 외부 피드백

추가 분석을 통해 논문은 단순히 환경 피드백에 반응하는 방식(IM 계열)보다 내부 추론(reasoning trace)을 유지하는 것이 장기 의사결정에서 훨씬 중요함을 보여줌
ReAct는 유연한 추론 구조를 통해 상태 추적, 목표 분해, 상식적 판단을 효과적으로 수행하며 이를 통해 복잡한 decision making 문제에서도 일관된 성능 향상을 달성함

ReAct는 장기 계획이 필요한 의사결정 환경에서 추론과 행동을 결합함으로써 단순 반응적 에이전트보다 훨씬 안정적이고 효과적인 문제 해결을 보여줌

기존 LLM 기반 추론 연구
- 추론 자체에 집중한 방법
- 의사결정을 수행하는 정책 모델 접근
먼저 Chain-of-Thought(CoT)는 LLM이 언어로 사고 과정을 생성하도록 유도하며 복잡한 문제 해결 능력을 크게 향상시킴
이후 self-consistency, selection–inference 분리, rationale 기반 fine tuning 등추론 구조를 정교화하는 연구들이 이어졌지만 이들 방법은 대부분 추론은 잘하지만 행동을 직접 다루지 못한다는 한계가 있었음
반면 WebGPT, 대화형 시스템, API 기반 에이전트 연구들은 LLM을 정책 모델로 활용해 환경과 상호작용하였지만 이들은 명시적인 추론 과정을 모델링하지 않거나 대규모 인간 피드백과 강화학습에 의존하는 경우가 많았음
ReAct는 이 두 흐름의 중간 지점에 위치하였으며 추론을 언어로 명시하면서도 행동과 관측을 하나의 연속된 문제 해결 과정으로 결합함으로써 기존 방법들이 다루지 못했던 추론 + 행동의 시너지를 단순한 프롬프트 설계만으로 구현한다는 점에서 차별화됨

❖ 6. CONCLUSION

ReAct는 간단하지만 효과적인 프레임워크를 통해 대규모 언어 모델이 추론과 행동을 동시에 수행할 수 있음을 보여줌
멀티-hop QA, 사실 검증 상호작용 기반 의사결정 태스크 전반에서 ReAct는 더 높은 성능과 해석 가능한 결정 과정을 제공하지만 복잡한 행동 공간을 다루기 위해서는 더 많은 in-context 예시나 추가 학습이 필요하다는 한계도 존재함
그럼에도 불구하고 ReAct는 강화학습이나 대규모 데이터 없이도 LLM 기반 agent의 가능성을 크게 확장한 연구로 평가할 수 있으며 이후 등장한 Agentic AI 연구들의 출발점 중 하나라는 점에서 그 의의가 매우 큼

❖ 논문 후기

최근 LLM을 다루는 대부분의 연구실들이 Agent를 필수적인 개념으로 활용하고 있다는 점을 보며 이제는 단순한 모델 이해를 넘어 Agent 관점의 사고가 필요하다고 느꼇음
그동안 agent라는 개념을 단편적으로만 알고 있었지 어떤 방식으로 처음 도입되고 정리되었는지는 잘 알지 못했는데 이번 논문을 통해LLM이 추론에만 머무르지 않고 행동과 의사결정으로 확장되어 온 흐름을 처음으로 구조적으로 이해할 수 있었음
ReAct 자체는 수식이나 이론적 증명보다는 기존 개념들을 잘 결합한 프레임워크에 가깝다고 느껴졌고 그래서 논문의 내용을 따라가는 데 큰 어려움은 없었지만 한편으로는 직관적으로 와닿는다기보다는 Agent 연구의 방향성을 보여주는 논문이라는 인상이 강했음
그럼에도 불구하고 이 논문을 시작으로 현재의 Agentic AI가 어떤 과정을 거쳐 발전해왔는지를
차근차근 따라가기에 매우 적절한 출발점이라고 생각하며 앞으로 ReAct 이후의 연구들을 이어서 살펴보며 Agent 개념을 더 깊이 이해해보고자 함

논문 만족도 : ⭐️⭐️⭐️ (Agent 개념의 출발점 같은 논문이라 의미가 크다 느껴 만족했음)
논문 이해도 : ⭐️⭐️ (다양한 실험으로 높은 성능을 보이고 개념적으로는 이해가 되지만 직관적으로 와닿지가 않아 이해하기 조금 어려움)
Agent 관심도 : ⭐️⭐️⭐️ (실제 LLM 관련 연구실에서는 거의 모두 Agent를 활용하는 모습을 볼 수 있었으며 이 때문에 관심을 갖고 공부하는 것이 필요해보임)