[논문 리뷰] ReAct : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

JMM·2026년 1월 10일

Error Recovery / Self-correction Grounded Reasoning Reasoning–Acting Interleaving Sparse Supervision / Few-shot Prompting Task Generality Thought / Action / Observation Loop Tool Use / Environment Interaction interpretability

논문

목록 보기

3/6

ReAct 논문 요약

개요 (Abstract 핵심)

문제: LLM의 추론(Chain-of-Thought) 과 행동(Action plan) 연구가 분리되어 있어 한계가 있었다.
제안 (ReAct): LLM이 추론(Thought) 과 행동(Action) 을 교차적으로 생성 →
- 추론: 계획 수립·업데이트, 예외 처리
- 행동: 외부 지식/환경과 상호작용해 정보 수집
효과
- HotpotQA, FEVER: Wikipedia API와 상호작용하며 환각/오류 전파를 억제, 해석 가능한 풀이 로그 생성
- ALFWorld, WebShop: 모방/강화학습 대비 성공률 +34%, +10% (1~2개 예시만으로도)
결론적 기여: 다양한 과제에서 성능 향상 + 신뢰성과 해석성을 동시에 달성

Introduction 핵심

1) 인간 비유

인간은 행동↔언어적 추론을 오가며 문제를 푼다(계획·예외 처리·정보 탐색).

2) 기존 한계

CoT(추론 전용): 내부 지식에만 의존 → 외부 grounding 부재, 환각·오류 전파
Act/Planning(행동 전용): 고차원 목표 추론·작업 기억 부족 → 유연성 낮음
공백: 두 능력을 시너지 있게 결합한 일반 해법이 거의 없었다

3) ReAct 제안

LLM이 Thought–Action–Observation을 교차 생성
- Reason to act: 추론으로 행동계획 작성·수정
- Act to reason: 외부와 상호작용해 추론에 필요한 사실 확보

4) 주요 결과(개요)

4개 벤치마크(HotpotQA/FEVER/ALFWorld/WebShop)에서 ReAct가 Act-only보다 강하고, CoT와 상호 보완
ReAct+CoT-SC 조합이 과제별로 최상 성능

Fig 1

(1) HotpotQA 예시

질문: Apple Remote가 원래 조작하도록 설계된 다른 장치는 무엇인가?

(1a) Standard (단순 답변)

입력 질문 → 곧바로 답 생성
답: iPod
근거 부족, 정답과 불일치 → 실패

(1b) Chain-of-Thought (Reason Only)

단계적 추론을 텍스트로 생성
Apple Remote → iPhone, iPad, iPod Touch 제어 가능하다고 추론
외부 검색 없음 → 환각(hallucination) 발생
답: iPhone, iPad, iPod Touch (오류)

(1c) Act-Only

Action만 실행
- Search[Apple Remote] → Apple Remote는 리모컨
- Search[Front Row] → Front Row 찾을 수 없음
- Search[Front Row software] → 중단된 미디어 소프트웨어
추론 없이 결과만 나열 → 최종 답변 도출 실패

(1d) ReAct (Reason + Act)

Thought와 Action 교차 수행
- Thought: “Apple Remote가 조작하는 프로그램을 찾아야 한다.”
- Action: Search[Apple Remote] → Obs: Front Row와 연결
- Thought: “Front Row 확인 필요” → Action: Search[Front Row]
- Obs: Front Row는 중단된 소프트웨어
- Thought: “Front Row는 Apple Remote의 키보드 function keys로 제어됨”
최종 답: Keyboard function keys → 정답

(2) ALFWorld 예시

과제: 주방 안에서 pepper shaker를 찾아 drawer에 넣기

(2a) Act-Only

순서대로 행동만 실행
- Drawer 열기 → 없음
- Sink 검색 → dish sponge 등만 발견
잘못된 장소 탐색 반복 → 실패

(2b) ReAct (Reason + Act)

Thought와 Action 교차 수행
- Thought: “pepper shaker는 cabinet이나 counter에 있을 가능성이 높다”
- Action: cabinet 1, 2 → 없음
- Action: counter 3 → pepper shaker 발견
- Thought: “이제 drawer에 넣어야 한다”
- Action: drawer 열고 pepper shaker 넣기 → 성공

핵심 비교

Standard: 답만 생성 → 정확도 낮음
CoT: 추론 trace 있음 → 외부 grounding 없어 환각 발생
Act-Only: 환경과 상호작용 가능 → 고차원 reasoning 부재
ReAct: 추론과 행동을 교차 → 정확성, 해석 가능성 모두 확보

Section 2 — ReAct 핵심 개념

1) 문제 설정

시점 tt: 관찰 oto_t → 정책 π(at∣ct)\pi(a_t|c_t)로 행동 ata_t 선택, 컨텍스트 ctc_t는 전체 이력
복잡 맥락에서 바로 ct→atc_t \to a_t 매핑은 어려움

2) 핵심 아이디어: 행동 공간 확장

행동 공간 AA에 언어 공간 LL 추가 → A^=A∪L\hat{A} = A \cup L
LL의 생각(Thought) 은 환경을 바꾸지 않지만 컨텍스트를 강화(계획·요약·예외 처리 등)

3) 학습/프롬프트 세팅

거대 LLM(예: PaLM-540B) 고정, few-shot 예시로 Thought+Action 생성
추론 중심 과제: Thought–Action–Observation을 교대로(dense thoughts)
행동 중심 과제: 필요 지점에만 생각을 희소하게 삽입

4) 특징(A–D)

A. 직관/설계 용이: 사람이 푼 과정을 그대로 예시 trajectory로 제공
B. 범용/유연: QA, 팩트체크, 게임, 웹 탐색 등 다양한 액션/추론 요구에 적용
C. 성능/안정성: 소수 예시만으로도 reasoning-only/acting-only 대비 우수
D. 해석/통제 용이: 추론/사실 근거 분리 확인, thought editing으로 중간 개입 가능

Section 3 — 지식집약 추론 과제 (HotpotQA, FEVER)

Setup

입력: 질문/주장만 제공(지원 문단 없음) → 내부 지식 또는 Wikipedia API로 검색 필요
액션 3개
1. search[entity] (첫 5문장 or 유사 엔티티 추천)
2. lookup[string] (해당 문자열 포함 문장 이후 1문장, Ctrl+F 유사)
3. finish[answer] (답 제출)

Methods

ReAct Prompting:
- HotpotQA 6개, FEVER 3개 예시 trajectory 수동 작성
- Thoughts 용도: 질문 분해, 관찰 요약, 상식/산술 추론, 검색 재구성, 최종 합성
Baselines:
- Standard: 생각/행동/관찰 제거
- CoT & CoT-SC: 추론 전용(+다수결)
- Act-only: 생각 제거, 행동+관찰만
내·외부 지식 결합 전략
- ReAct→CoT-SC: 제한 step 내 미해결 시 CoT-SC로 폴백
- CoT-SC→ReAct: 다수결 불확실 시 ReAct로 폴백
Finetuning: ReAct가 만든 정답 trajectory 3,000개로 소형 모델(PaLM-8B/62B) 튜닝

Results

ReAct > Act-only: 추론이 행동을 의미 있게 유도 → 최종 답 합성에 유리
ReAct vs CoT
- FEVER: ReAct 60.9 > 56.3 CoT (현실 사실 근거 중요)
- HotpotQA: CoT 29.4 > 27.4 ReAct (추론 자유도 중요)
오류/성공 패턴
- CoT: 환각이 주요 실패(및 FP 증가)
- ReAct: 구조 제약으로 추론 오류/루프 발생, 비정보성 검색(23%) 시 복구 어려움
최적 조합
- HotpotQA: ReAct→CoT-SC
- FEVER: CoT-SC→ReAct
- 적은 샘플(3–5개)로도 CoT-SC(21샘플) 성능에 근접/상회
Finetuning 효과
- Prompt-only에선 소형 모델이 ReAct 학습 난이도↑
- 3,000 예시 튜닝만으로 ReAct가 최상 성능(상대적 대형 프롬프트 모델도 추월)

Section 4 — 의사결정 과제 (ALFWorld, WebShop)

ALFWorld

텍스트 가정집 시뮬: 50+ 위치, 50+ 스텝(전문가 기준) → 장기 계획/서브골 추적 필요
ReAct 프롬프트: 각 태스크 유형별 3개 trajectory, 희소한 Thoughts로
1. 목표 분해, 2) 서브골 완료 추적, 3) 다음 서브골 결정, 4) 상식 기반 탐색
비교: Act-only, BUTLER(IL, 10만 전문가 시연)
결과: ReAct 71%, Act 45%, BUTLER 37%
- ReAct 최악 trial(48%)도 타 방법 최고 trial 초과
- 평균 상대 향상 +62%
- Act는 목표 분해/상태 추적 실패가 빈번

WebShop

실세계 텍스트 잡음 환경(118만 상품, 1.2만 지시문): 검색·옵션 선택·구매
지표: 평균 속성 충족률, 성공률
결과: Act-one-shot도 IL/IL+RL과 비슷, ReAct는 성공률 +10%p 추가 개선
- 지시문↔옵션 매칭을 reasoning으로 보강
- 여전히 인간 전문가에겐 못 미침(탐색/재검색의 폭과 질 차이)

내부 추론 vs 단순 외부 피드백(IM) 비교

IM(Inner Monologue): 관찰 되풀이 수준의 “내부 독백”
ReAct-IM ablation: ReAct 71% > 53% ReAct-IM
- IM 스타일은 서브골 완료 판단/다음 목표 설정/상식 추론이 약함
- ReAct는 희소·유연한 추론으로 보완

Section 6 — 결론

ReAct: 단순한 프롬프트 설계로 reasoning+acting 결합 → 성능↑, 해석성↑
한계: 큰 액션 공간 과제는 시연 예시가 많이 필요(인컨텍스트 길이 제한)
개선:
- Finetuning(초기 유망, 더 많은 고품질 주석 데이터 필요)
- 멀티태스크 학습 확장
- 강화학습(RL) 과의 결합 → 더 강력한 에이전트 기대
재현성: 프롬프트/추가 GPT-3 실험/코드(익명 repo) 공개
윤리: 외부 환경에 행동 연결 시 위험 존재 → 본 연구는 안전한 환경으로 제한

+) 용어 정리

Thought: 모델이 텍스트로 남기는 중간 추론(계획, 요약, 예외 처리 등)
Action: 검색·조회·클릭 등 외부 환경에 미치는 동작
Observation: Action 결과로 얻은 정보(검색 결과, 페이지 문장 등)
CoT: 중간 추론만 텍스트로 적는 방식(외부 상호작용 없음)
CoT-SC: 같은 질문을 여러 번 CoT로 풀어 다수결로 답 결정

JMM

이전 포스트

[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

다음 포스트

[논문 리뷰] ReAct : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

논문

ReAct 논문 요약

개요 (Abstract 핵심)

Introduction 핵심

1) 인간 비유

2) 기존 한계

3) ReAct 제안

4) 주요 결과(개요)

Fig 1

(1) HotpotQA 예시

(1a) Standard (단순 답변)

(1b) Chain-of-Thought (Reason Only)

(1c) Act-Only

(1d) ReAct (Reason + Act)

(2) ALFWorld 예시

(2a) Act-Only

(2b) ReAct (Reason + Act)

핵심 비교

Section 2 — ReAct 핵심 개념

1) 문제 설정

2) 핵심 아이디어: 행동 공간 확장

3) 학습/프롬프트 세팅

4) 특징(A–D)

Section 3 — 지식집약 추론 과제 (HotpotQA, FEVER)

Setup

Methods

Results

Section 4 — 의사결정 과제 (ALFWorld, WebShop)

ALFWorld

WebShop

내부 추론 vs 단순 외부 피드백(IM) 비교

Section 6 — 결론

+) 용어 정리

[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

[논문 리뷰] Denoising Diffusion Probabilistic Models

0개의 댓글