ReAct 논문 요약


개요 (Abstract 핵심)

  • 문제: LLM의 추론(Chain-of-Thought)행동(Action plan) 연구가 분리되어 있어 한계가 있었다.
  • 제안 (ReAct): LLM이 추론(Thought)행동(Action)교차적으로 생성 →
    • 추론: 계획 수립·업데이트, 예외 처리
    • 행동: 외부 지식/환경과 상호작용해 정보 수집
  • 효과
    • HotpotQA, FEVER: Wikipedia API와 상호작용하며 환각/오류 전파를 억제, 해석 가능한 풀이 로그 생성
    • ALFWorld, WebShop: 모방/강화학습 대비 성공률 +34%, +10% (1~2개 예시만으로도)
  • 결론적 기여: 다양한 과제에서 성능 향상 + 신뢰성과 해석성을 동시에 달성

Introduction 핵심

1) 인간 비유

  • 인간은 행동↔언어적 추론을 오가며 문제를 푼다(계획·예외 처리·정보 탐색).

2) 기존 한계

  • CoT(추론 전용): 내부 지식에만 의존 → 외부 grounding 부재, 환각·오류 전파
  • Act/Planning(행동 전용): 고차원 목표 추론·작업 기억 부족 → 유연성 낮음
  • 공백: 두 능력을 시너지 있게 결합한 일반 해법이 거의 없었다

3) ReAct 제안

  • LLM이 Thought–Action–Observation교차 생성
    • Reason to act: 추론으로 행동계획 작성·수정
    • Act to reason: 외부와 상호작용해 추론에 필요한 사실 확보

4) 주요 결과(개요)

  • 4개 벤치마크(HotpotQA/FEVER/ALFWorld/WebShop)에서 ReAct가 Act-only보다 강하고, CoT와 상호 보완
  • ReAct+CoT-SC 조합이 과제별로 최상 성능

Fig 1

(1) HotpotQA 예시

질문: Apple Remote가 원래 조작하도록 설계된 다른 장치는 무엇인가?

(1a) Standard (단순 답변)

  • 입력 질문 → 곧바로 답 생성
  • 답: iPod
  • 근거 부족, 정답과 불일치 → 실패

(1b) Chain-of-Thought (Reason Only)

  • 단계적 추론을 텍스트로 생성
  • Apple Remote → iPhone, iPad, iPod Touch 제어 가능하다고 추론
  • 외부 검색 없음 → 환각(hallucination) 발생
  • 답: iPhone, iPad, iPod Touch (오류)

(1c) Act-Only

  • Action만 실행
    • Search[Apple Remote] → Apple Remote는 리모컨
    • Search[Front Row] → Front Row 찾을 수 없음
    • Search[Front Row software] → 중단된 미디어 소프트웨어
  • 추론 없이 결과만 나열 → 최종 답변 도출 실패

(1d) ReAct (Reason + Act)

  • Thought와 Action 교차 수행
    • Thought: “Apple Remote가 조작하는 프로그램을 찾아야 한다.”
    • Action: Search[Apple Remote] → Obs: Front Row와 연결
    • Thought: “Front Row 확인 필요” → Action: Search[Front Row]
    • Obs: Front Row는 중단된 소프트웨어
    • Thought: “Front Row는 Apple Remote의 키보드 function keys로 제어됨”
  • 최종 답: Keyboard function keys → 정답

(2) ALFWorld 예시

과제: 주방 안에서 pepper shaker를 찾아 drawer에 넣기

(2a) Act-Only

  • 순서대로 행동만 실행
    • Drawer 열기 → 없음
    • Sink 검색 → dish sponge 등만 발견
  • 잘못된 장소 탐색 반복 → 실패

(2b) ReAct (Reason + Act)

  • Thought와 Action 교차 수행
    • Thought: “pepper shaker는 cabinet이나 counter에 있을 가능성이 높다”
    • Action: cabinet 1, 2 → 없음
    • Action: counter 3 → pepper shaker 발견
    • Thought: “이제 drawer에 넣어야 한다”
    • Action: drawer 열고 pepper shaker 넣기 → 성공

핵심 비교

  • Standard: 답만 생성 → 정확도 낮음
  • CoT: 추론 trace 있음 → 외부 grounding 없어 환각 발생
  • Act-Only: 환경과 상호작용 가능 → 고차원 reasoning 부재
  • ReAct: 추론과 행동을 교차 → 정확성, 해석 가능성 모두 확보

Section 2 — ReAct 핵심 개념

1) 문제 설정

  • 시점 tt: 관찰 oto_t → 정책 π(at∣ct)\pi(a_t|c_t)로 행동 ata_t 선택, 컨텍스트 ctc_t는 전체 이력
  • 복잡 맥락에서 바로 ct→atc_t \to a_t 매핑은 어려움

2) 핵심 아이디어: 행동 공간 확장

  • 행동 공간 AA에 언어 공간 LL 추가 → A^=A∪L\hat{A} = A \cup L
  • LL의 생각(Thought) 은 환경을 바꾸지 않지만 컨텍스트를 강화(계획·요약·예외 처리 등)

3) 학습/프롬프트 세팅

  • 거대 LLM(예: PaLM-540B) 고정, few-shot 예시로 Thought+Action 생성
  • 추론 중심 과제: Thought–Action–Observation을 교대로(dense thoughts)
  • 행동 중심 과제: 필요 지점에만 생각을 희소하게 삽입

4) 특징(A–D)

  • A. 직관/설계 용이: 사람이 푼 과정을 그대로 예시 trajectory로 제공
  • B. 범용/유연: QA, 팩트체크, 게임, 웹 탐색 등 다양한 액션/추론 요구에 적용
  • C. 성능/안정성: 소수 예시만으로도 reasoning-only/acting-only 대비 우수
  • D. 해석/통제 용이: 추론/사실 근거 분리 확인, thought editing으로 중간 개입 가능

Section 3 — 지식집약 추론 과제 (HotpotQA, FEVER)

Setup

  • 입력: 질문/주장만 제공(지원 문단 없음) → 내부 지식 또는 Wikipedia API로 검색 필요
  • 액션 3개
    1. search[entity] (첫 5문장 or 유사 엔티티 추천)
    2. lookup[string] (해당 문자열 포함 문장 이후 1문장, Ctrl+F 유사)
    3. finish[answer] (답 제출)

Methods

  • ReAct Prompting:
    • HotpotQA 6개, FEVER 3개 예시 trajectory 수동 작성
    • Thoughts 용도: 질문 분해, 관찰 요약, 상식/산술 추론, 검색 재구성, 최종 합성
  • Baselines:
    • Standard: 생각/행동/관찰 제거
    • CoT & CoT-SC: 추론 전용(+다수결)
    • Act-only: 생각 제거, 행동+관찰만
  • 내·외부 지식 결합 전략
    • ReAct→CoT-SC: 제한 step 내 미해결 시 CoT-SC로 폴백
    • CoT-SC→ReAct: 다수결 불확실 시 ReAct로 폴백
  • Finetuning: ReAct가 만든 정답 trajectory 3,000개로 소형 모델(PaLM-8B/62B) 튜닝

Results

  • ReAct > Act-only: 추론이 행동을 의미 있게 유도 → 최종 답 합성에 유리
  • ReAct vs CoT
    • FEVER: ReAct 60.9 > 56.3 CoT (현실 사실 근거 중요)
    • HotpotQA: CoT 29.4 > 27.4 ReAct (추론 자유도 중요)
  • 오류/성공 패턴
    • CoT: 환각이 주요 실패(및 FP 증가)
    • ReAct: 구조 제약으로 추론 오류/루프 발생, 비정보성 검색(23%) 시 복구 어려움
  • 최적 조합
    • HotpotQA: ReAct→CoT-SC
    • FEVER: CoT-SC→ReAct
    • 적은 샘플(3–5개)로도 CoT-SC(21샘플) 성능에 근접/상회
  • Finetuning 효과
    • Prompt-only에선 소형 모델이 ReAct 학습 난이도↑
    • 3,000 예시 튜닝만으로 ReAct가 최상 성능(상대적 대형 프롬프트 모델도 추월)

Section 4 — 의사결정 과제 (ALFWorld, WebShop)

ALFWorld

  • 텍스트 가정집 시뮬: 50+ 위치, 50+ 스텝(전문가 기준) → 장기 계획/서브골 추적 필요
  • ReAct 프롬프트: 각 태스크 유형별 3개 trajectory, 희소한 Thoughts
    1. 목표 분해, 2) 서브골 완료 추적, 3) 다음 서브골 결정, 4) 상식 기반 탐색
  • 비교: Act-only, BUTLER(IL, 10만 전문가 시연)
  • 결과: ReAct 71%, Act 45%, BUTLER 37%
    • ReAct 최악 trial(48%)도 타 방법 최고 trial 초과
    • 평균 상대 향상 +62%
    • Act는 목표 분해/상태 추적 실패가 빈번

WebShop

  • 실세계 텍스트 잡음 환경(118만 상품, 1.2만 지시문): 검색·옵션 선택·구매
  • 지표: 평균 속성 충족률, 성공률
  • 결과: Act-one-shot도 IL/IL+RL과 비슷, ReAct는 성공률 +10%p 추가 개선
    • 지시문↔옵션 매칭을 reasoning으로 보강
    • 여전히 인간 전문가에겐 못 미침(탐색/재검색의 폭과 질 차이)

내부 추론 vs 단순 외부 피드백(IM) 비교

  • IM(Inner Monologue): 관찰 되풀이 수준의 “내부 독백”
  • ReAct-IM ablation: ReAct 71% > 53% ReAct-IM
    • IM 스타일은 서브골 완료 판단/다음 목표 설정/상식 추론이 약함
    • ReAct는 희소·유연한 추론으로 보완

Section 6 — 결론

  • ReAct: 단순한 프롬프트 설계로 reasoning+acting 결합 → 성능↑, 해석성↑
  • 한계: 큰 액션 공간 과제는 시연 예시가 많이 필요(인컨텍스트 길이 제한)
  • 개선:
    • Finetuning(초기 유망, 더 많은 고품질 주석 데이터 필요)
    • 멀티태스크 학습 확장
    • 강화학습(RL) 과의 결합 → 더 강력한 에이전트 기대
  • 재현성: 프롬프트/추가 GPT-3 실험/코드(익명 repo) 공개
  • 윤리: 외부 환경에 행동 연결 시 위험 존재 → 본 연구는 안전한 환경으로 제한

+) 용어 정리

  • Thought: 모델이 텍스트로 남기는 중간 추론(계획, 요약, 예외 처리 등)
  • Action: 검색·조회·클릭 등 외부 환경에 미치는 동작
  • Observation: Action 결과로 얻은 정보(검색 결과, 페이지 문장 등)
  • CoT: 중간 추론만 텍스트로 적는 방식(외부 상호작용 없음)
  • CoT-SC: 같은 질문을 여러 번 CoT로 풀어 다수결로 답 결정

0개의 댓글