[논문리뷰] Boosting LLM Agents with Recursive Contemplation for Effective Deception Handling

결·2025년 2월 11일

논문리뷰

목록 보기

16/19

Introduction

현재 상황 : 많은 llm연구들이 진행되고 있다.

문제 : 여기서의 assumption은 LLM에 의해 처리된 정보들이 honest하고, deception이 없다는 것을 가정

 실제 예시 )

 **예시 1**. **deception** 구별 불가

 **예시 2**. 악의적인 가치들에 관련된 **위험 구분 불가**

→ significant loss

해결책 : identify and counteract deceptive inputs를 하는 게 필요!!!

그렇다면, 여기서 쓰인 시나리오는?

→ realistic linguistic tasks with misinformation

인간은 그럼 이런 시나리오에 어떤 식으로 반응하는데?

→ recursive thinking, perspective-taking

따라서 우리는 ReCon을 제시한다!

🤗

ReCon
1. Framework 구조

formulation contemplation
refinement contemplation
evaluation
1. environment
  
  = avalon game
2. dataset
  
  = BigTom : Misinformation 데이터셋!
3. evaluation method : quantative , qualitive

proceedings.neurips.cc

( avalon game, dataset에 관한 논문 )

result

= 최종적인 finetuning이나 data 없이도 좋은 성과를 이루어냄.
= 새로운 research field 제안 / novel cognitive framework / comprehensive experiments

Thought methods of LLMs
Game Playing in Deceptive Environments

3 Background

3.1 Brief introduction

Avalon

= competitive한 setting에서, deception과 misinformation을 simulate할 수 있도록 만들어 놓은 보드게임!

= good vs evil

스크린샷 2025-02-02 17.25.19.png

스크린샷 2025-02-02 17.25.34.png

스크린샷 2025-02-02 17.25.55.png

Good Team

= 멀린 , 퍼시벌

(근데 심지어 논문에 이렇게 나와있다)

(This game is about a battle between good
and evil, where the good team, featuring Merlin, Percival, and two Loyal Servants of Arthur, aims to complete quests.)

evil side

= 모르가나, 암살자

( In contrast, the evil side, with Morgana and Assassin, seeks to fail these quests.)

구체적인 아발론 관련 설명

BigTom

= LLM의 ToM cabability를 알아보기 위해 만든 벤치마크!

( llm이 잘못된 정보 찾고, 그 잘못된 정보들을 가지고 navigate하는 시나리오 포함)

ex ) 잘못된 처음의 아래 믿음이 self-misinformation으로 연결

Noor believes a pitcher contains oat milk but it has already been
replaced with almond milk by his coworker

스크린샷 2025-02-02 21.42.00.png

3.2 Challenges in Deceptive Environments

스크린샷 2025-02-02 17.39.03.png

그렇다면, 도대체 저 avalon game이란 환경에서, 어떤 게 문제인데? 어떤 게 문제여서 해결을 해야하는건데?

Misled by malicious content

= ‘깜빡 속기!’

Arthur’s loyal servant (a good player) <> Assassin(an evil player)
1. Assassin
  
  제안 : replacing a good player with an evil one ( 한번 바꿔보자! )
  
  ( 속셈 : evil한 거를 위해서! )
2. Arthur
  
  CoT를 통해서 답했을 때 : 그럼! evail player를 불러들이자~~ ( 속음 )
  
  ReCon을 통해서 답했을 때 : 근데, 되게 조심해야해! ( 안 속음 )
Exposing private information

= 비밀 정보 누설 !
1. 상황
  
  새로 뭔가 팀을 꾸려야 하는 상황
2. Merlin
  
  CoT를 통해서 답했을 때 : 그럼! 나,Merlin,은~ ( 비밀 정보 누설 )
  
  ReCon을 통해서 답했을 때 : 그냥 뭐 걱정되니까 다시한번 바꿔보자 ( 비밀 정보 누설 X )
Hidden thought deception

= 생각을 말 안함
1. 상황
  
  player 4가 assassin인 거를 Morgana만 아는 상황!
2. Morgana
  
  CoT를 통해서 답했을 때 : 뭐 미션 성공안했으니까~player 4를 제외하는 게 좋아 ( 생각 말 안함 )
  
  ReCon을 통해서 답했을 때 : 나는 evil을 좋아하니까~player 4를 제외하는 게 좋아 ( 생각 말 함 )

⇒ 결국 안 속고 + 비밀 정보 누설 안하고 + 생각 말 하는 애여야 해!

🤗

이건, deceptive한 정보를 multi agent에 한번 주입했을 때 발생할 상황들!

우리는 deceptive한 정보를 multi agent에 여러번 주입했을 때 발생할 상황들에 대해 탐구해보면 어떨까?
→ 근데, 우리가 한번 주입했을 때보다 더 안 좋은 현상이 발생한다는 것을 논문에 언급해야하는데…
여러번 의견을 주입하는 것에 어떤 안 좋은 현상이 있는 거지?

4 Recursive Contemplation

3.2에 있는 challengs를 해결하기 위해서,

과연 어떤 것들이 좋을까?

4.1 Formulation Contemplation

해결할 문제 : Exposing private information & Hidden thought deception

해결책 : 1) 안에서 contemplate 한 다음 → 2) 밖으로 the spoken content 내뱉기!

⇒ [First-order Perspective Transition]

First-order의 의미는?

= ‘infer what others might be thinking from its own perspective’

= 내 관점에서 다른 사람들이 어떻게 생각할지!

구체적인 실현 방법

= deduce the roles of fellow players!

1 ) 다른 사람들의 역할 추측하기
2 ) 다른 사람의 상태와 할 말 추측하기
3 ) contemplation 하기

수학적으로 풀어내보기

1 ) 안에서 contemplate 한 다음

플레이어 숫자 :

스크린샷 2025-02-02 20.57.11.png

일때,

K번째 player는 first thinks about the current game situation and the
roles of fellow players, following the principle of first-order perspective transition:

스크린샷 2025-02-02 20.58.37.png

Tk = k의생각!

H = 기존의 대화 로그

Rk = player k의 role

Gk = role assumption ( 다른 사람들에 대한 )

G’k = 업데이트된 role assumption

IRk = role-specific한 비밀 정보

P뭐시기뭐시기 = 다 프롬프트 ! ! ! ! !

🤗

그렇다면 저 위의 수식이 말하는 것은?

(1) role assumption 업데이트하기 : 기존의 대화로그 + role-specific한 기본 정보 + role assumption + PT1 프롬프트 ⇒ role assumption을 만들어냄.

(2) update 된걸로 role assumption 바꾸기

(3) Tk(생각) 만들어내기 : 기존의 대화로그 + role-specific한 기본 정보 + 업데이트된 role assumption + think 프롬프트 ⇒ Tk 만들어냄.

2) 밖으로 the spoken content 내뱉기!

스크린샷 2025-02-02 21.07.03.png

Sk = k의 내뱉는 말!

🤗

그렇다면 저 위의 수식이 말하는 것은?
(4) Sk(내뱉는 말) 만들어내기 : 생각 + 업데이트된 role assumption + 기존의 대화로그 + role-specific한 기본 정보 + speak 프롬프트 ⇒ Sk만들어냄

근데 4.1에서 했음에도 불구하고, 실수가 있었다고 한다.

해결할 문제 : Exposing private information…

해결책 : 1) 안에서 contemplate 한 다음 → 2) 안에서 contemplate 한 다음 → 3) 밖으로 the spoken content 내뱉기!

⇒ [Second-Order Perspective Transition]

Second-Order의 의미는?

= ‘putting oneself in someone else’s shoes’

= 다른 사람의 관점에서 다른 사람들이 어떻게 생각할지!

구체적으로 보자면, “If I verbalize my initial version Sk of spoken content, how would the other roles,
from both good and evil sides, respectively perceive my speech?”
구체적인 실현 방법 Ok = 다른 역할의 심리 상태에 대한 분석 🤗 (5) 다른 역할의 심리상태에 대한 분석 : k가 내뱉는 말 + role-specific한 정보 + 대화 로그 + PT2 프롬프트 ⇒ Ok (6) 최종적인 생각, 최종적으로 내뱉는 말 : (3)에서 만든 생각 + (4)에서 만든 생각 + 대화로그 + (5)에서 만든 분석 + role-specific한 정보 + ref프롬프트 ⇒ Tk’,Sk’ ![스크린샷 2025-02-02 21.21.39.png](attachment:5a4b2945-19a7-4a58-a379-00a9bca4dba3:스크린샷_2025-02-02_21.21.39.png) 최종적으로 대화 로그에 포함된다!

5 Experimental Evaluations

5.1 Experimental Results on Avalon

5.1.1 End-to-End Evaluations

일단, 한번 마피아를 잘 뽑았나! 한번 볼게!
원래는 이제 하도 애들이 잘 속이니까(거짓말을 잘 하니까), 사실 마피아를 잡는! 그런 확률이 현저~하게 떨어지지만, 이 기법을 적용해서 투명하게 게임을 해보면 어떨까?

스크린샷 2025-02-02 21.22.28.png

🔹 실험 개요

아발론 게임 여러번 하게 함.
ReCon을 Chain-of-Thought(CoT)에 적용하여 평가함.
- 좋은 편(선한 편) 테스트: CoT를 나쁜 편(악한 편)으로 설정해 비교.
- 나쁜 편(악한 편) 테스트: ReCon을 좋은 편(선한 편)으로 설정해 비교.
비교 대상:
- 기본 프롬프팅(vanilla prompting)
- Chain-of-Thought (CoT)
- Tree-of-Thoughts (ToT)
모델: ChatGPT, Claude, LLaMA-2 (LLaMA-2는 응답 형식이 맞지 않아 실패).

🔹 실험 결과 요약

ReCon이 기존 방법(CoT, ToT)보다 성능이 좋음.
ReCon의 다양한 설계 요소(예: formulation conotemplation, refinement)가 효과적.
- 선한 편에서는 관점 전환(first/second-order perspective transitions)이 성능 향상에 크게 기여.
- 악한 편에서는 정교화 기법(refinement contemplation)이 더 중요한 역할을 함.
ReCon의 모든 기법을 조합했을 때 성능이 가장 높음.

5.1.2 Multi-Dimensional Evaluation

🔹 ReCon 성능 비교 실험

ReCon과 그 변형(ablated variants), 그리고 기본 모델인 CoT를 비교하여 ReCon의 설계 효과를 평가

📌 비교 기준 (6가지 평가 지표)

Concealment (CCL) – 비밀 유지 능력 (불필요한 정보 노출 방지)
Logic (LG) – 논리적인 게임 분석 능력
Contribution (CTR) – 팀 성공에 기여하는 발언 여부
Persuasiveness (PRS) – 다른 플레이어를 설득하는 능력
Information (INF) – 유용한 정보를 제공하는 정도
Creativity (CRT) – 독창적인 전략과 관점

📌 실험 방법

ChatGPT로 20번의 Avalon 게임을 진행하여 데이터 수집
각 프롬프트에 대해 4가지 방식의 응답 생성
1. ReCon
2. ReCon (2단계인 refinement 없음)
3. ReCon (1단계인 formulation 없음)
4. 기본 CoT
총 2300개 이상의 응답 생성
GPT-4를 이용하여 각 응답을 6가지 기준으로 비교

스크린샷 2025-02-02 21.30.03.png

🔹 실험 결과

Figure 4(a): ReCon이 모든 기준에서 CoT보다 성능이 뛰어남
Figure 4(b), (c): 2단계 refinement contemplation와 1단계 formulation contemplation 기법이 성능 향상에 큰 도움을 줌
예외:
- PRS(설득력) 점수는 기대보다 낮음
- 이유: 1단계 formulation contemplation 으로 인해 더 간결한 표현을 사용했기 때문
- 예를 들어, 감정적인 표현(“우리는 반드시 승리할 것이다! 단결하자!”)이 줄어듦

🔹 First-Order & Second-Order Perspective Transitions 분석

👉 핵심 내용:

ReCon에서 1차 및 2차 관점 전환을 제거하면 모든 평가 지표에서 성능이 감소함.

📌 세부 분석

Figure 4(d), (e):
- 1차 및 2차 관점 전환을 제거하면 모든 평가 지표에서 성능 저하 발생
Figure 4(f), (g):
- refinement 또는 formulation 고려 없이 1차·2차 관점 전환을 제거하면 대부분의 지표가 하락
- 예외적으로 CCL(비밀 유지 능력)은 향상됨
- 하지만 이는 관점 전환과 정교화/공식화 기법을 함께 사용해야 비밀 유지가 더 효과적임을 시사

5.1.3 Reliability of Automatic Evaluation

그러면, GPT-4를 평가할 때 썼으니까 안좋은 거 아니야?!!! 잘못평가했으면 어떡해~!

🔹 연구 방법

GPT-4의 자동 평가 결과(Figure 4)를 인간 주석(annotations)과 비교하여 신뢰성을 평가
무작위 샘플 216개 대화 선정, 인간 평가자들이 합의 수준에 따라 분류
- “완전 합의” (Full Agreement)
- “대부분 합의” (Majority Agreement)
- “대부분 불일치” (Majority Disagreement)
- “완전 불일치” (Full Disagreement)
주석 팀: Avalon 게임에 익숙한 12명의 평가자 (남성 8명, 여성 4명)

🔹 결과 (Figure 5)

합의 비율: 73.15%
불일치 비율: 26.85%
통계적 검증 (§H.3 참고)에서도 신뢰도 높음

🔎 결론: GPT-4의 자동 평가는 신뢰할 만한 결과를 제공함.

5.2 Experimental Results on BigTom

목표: ReCon이 Avalon 게임 외 다른 인지적 과제에도 확장 가능한지 검증

왜냐면, avalon 게임에만 적용되면 소용이 없잖니~

🔹 BigTom이란?

BigTom (Gandhi et al., 2023): LLM의 심리 이론(ToM, Theory of Mind) 능력을 평가하는 사회적 추론 벤치마크
특징: false belief 관련 사례 포함 → 오정보(misinformation) 탐지와 연관

🔹 5.2.1 기본 모델과 비교 (Comparison with Baselines)

비교 대상:
- 일반 LLMs (Vanilla LLMs)
- CoT (Chain-of-Thought)
- ToT (Tree-of-Thought)
- ReCon
실험 방법:
- Vanilla LLM & CoT → Gandhi et al. (2023) 방식 사용
- ToT → Yao et al. (2023) 방식 적용 (2-depth tree, 각 플랜 5회 평가)
결과 (Table 1):
- ReCon이 거의 모든 테스트에서 최고 성능
- 특히 초기 신념(Initial Beliefs) 관련 문제에서 우수, 거짓 정보 대응력 향상

✅ 결론: ReCon은 거짓 신념(misinformation) 탐지 및 대응에서 효과적!

📌 5.2.2 ReCon의 확장 가능성 (Scaling Trend of ReCon)

Figure 6 분석:
- LLaMA-Chat의 매개변수 수(parameter count) 증가 → ReCon 성능도 꾸준히 향상
- 같은 모델 크기에서 ReCon > CoT, ToT
- 🚀 결론: ReCon은 더 큰 모델에서도 확장 가능, 차세대 LLM과도 호환 가능

6. Conclusion

Limitations

📌 ReCon의 일반화 가능성과 한계

1. ReCon이 모든 LLM에서 효과적인가?

불확실성: ReCon이 모든 종류의 LLM 성능을 향상시킬지는 확실하지 않음.
광범위한 테스트: 연구에서는 GPT-3.5, GPT-4, Claude-2, LLaMA-7b-chat, LLaMA-13b-chat 등 다양한 LLM을 평가.
핵심 관찰: 다양한 LLM에서 ReCon이 성능 향상을 보여줌 → 현재 LLM에 대해 일관된 효과를 가질 가능성.
미래 전망:
- ReCon의 인지 전략(재귀적 사고, 관점 전환)은 인간 지능과 유사.
- LLM이 인간 수준의 지능에 도달하더라도, ReCon의 접근법은 여전히 유효할 가능성이 높음.
- 잠재적 약점: 만약 미래의 LLM이 생성 능력이 부족해진다면, ReCon의 효과가 감소할 수도 있음.

✅ 결론: ReCon의 전략은 LLM이 발전하더라도 지속적으로 유용할 가능성이 높음, 다만 생성 능력이 약화될 경우 효과가 감소할 수도 있음.

2. ReCon이 모든 속임수 환경에서 효과적인가?

불확실성: ReCon이 모든 종류의 기만(속임수) 및 허위 정보 환경에서 효과적일까?
두 가지 대표적인 테스트 환경:
1. Avalon 게임 – 복잡한 속임수 및 이론적 사고(ToM) 필요, 그러나 정답(ground-truth)이 없음.
2. BigTom 벤치마크 – 단순한 허위 정보 및 ToM, 하지만 정답이 존재하고 다양한 추론 과제가 포함됨.
실험 결과:
- ReCon은 두 환경에서 모두 우수한 성능을 보임.
- 다양한 기만 및 허위 정보 환경에 대해 일반화 가능성이 있음.

✅ 결론: ReCon은 허위 정보 탐지에 유망하지만, 실제 환경에서 추가적인 테스트가 필요함.

3. ReCon이 사전 학습 없이도 효과적인가?

우려 사항: ReCon의 성능이 LLM의 본래 능력에 의존한다면, 추가적인 미세 조정(fine-tuning)이 필요할까?
잠재적 이점: 추가적인 데이터로 미세 조정을 하면 ReCon의 성능이 더욱 향상될 가능성.
인지적 접근법의 강점:
- LLM이 본래 가지고 있는 능력을 항상 최적으로 활용하지는 않음 → 인지적 방법이 이를 극대화하는 역할.
- CoT(Chain-of-Thought) 및 ToT(Tree-of-Thought)와 유사하게, LLM의 추론 능력을 최대한 활용하도록 유도.
- 장점: 추가적인 훈련 데이터 없이도 작동 가능 → 보다 광범위한 응용 가능성 제공.

✅ 결론: 추가적인 학습이 ReCon의 성능을 높일 수 있지만, 추가 데이터 없이도 LLM의 내재적 능력을 효과적으로 활용하는 것이 ReCon의 핵심 강점.

📌 최종 정리

✅ ReCon은 다양한 LLM에서 성능을 향상시키며, AI가 발전하더라도 유효할 가능성이 높음.

✅ 실제 환경에서 추가적인 검증이 필요함.

✅ fine-tuning이 도움이 될 수 있지만, ReCon은 추가 학습 없이도 LLM의 잠재력을 극대화할 수 있음.

🤗

역시 잘 쓰인 논문이라,,,술술 읽힌다.

결

한발한발 나아갑니당!

이전 포스트

[논문리뷰] BIAS RUNS DEEP: IMPLICIT REASONING BIASES IN PERSONA-ASSIGNED LLMS

다음 포스트

[논문리뷰] Boosting LLM Agents with Recursive Contemplation for Effective Deception Handling

논문리뷰

Introduction

3 Background

3.1 Brief introduction

Avalon

BigTom

3.2 Challenges in Deceptive Environments

4 Recursive Contemplation

4.1 Formulation Contemplation

4.2 Refinement Contemplation

5 Experimental Evaluations

5.1 Experimental Results on Avalon

5.1.1 End-to-End Evaluations

🔹 실험 개요

🔹 실험 결과 요약

5.1.2 Multi-Dimensional Evaluation

🔹 ReCon 성능 비교 실험

📌 비교 기준 (6가지 평가 지표)

📌 실험 방법

🔹 실험 결과

🔹 First-Order & Second-Order Perspective Transitions 분석

📌 세부 분석

5.1.3 Reliability of Automatic Evaluation

🔹 연구 방법

🔹 결과 (Figure 5)

5.2 Experimental Results on BigTom

🔹 BigTom이란?

🔹 5.2.1 기본 모델과 비교 (Comparison with Baselines)

📌 5.2.2 ReCon의 확장 가능성 (Scaling Trend of ReCon)

6. Conclusion

📌 ReCon의 일반화 가능성과 한계

📌 최종 정리

[논문리뷰] BIAS RUNS DEEP: IMPLICIT REASONING BIASES IN PERSONA-ASSIGNED LLMS

[논문리뷰] Persuasion Games with Large Language Models

0개의 댓글

[논문리뷰] Boosting LLM Agents with Recursive Contemplation for Effective Deception Handling

논문리뷰

Introduction

2 Related Work

3 Background

3.1 Brief introduction

Avalon

BigTom

3.2 Challenges in Deceptive Environments

4 Recursive Contemplation

4.1 Formulation Contemplation

4.2 Refinement Contemplation

5 Experimental Evaluations

5.1 Experimental Results on Avalon

5.1.1 End-to-End Evaluations

🔹 실험 개요

🔹 실험 결과 요약

5.1.2 Multi-Dimensional Evaluation

🔹 ReCon 성능 비교 실험

📌 비교 기준 (6가지 평가 지표)

📌 실험 방법

🔹 실험 결과

🔹 First-Order & Second-Order Perspective Transitions 분석

📌 세부 분석

5.1.3 Reliability of Automatic Evaluation

🔹 연구 방법

🔹 결과 (Figure 5)

5.2 Experimental Results on BigTom

🔹 BigTom이란?

🔹 5.2.1 기본 모델과 비교 (Comparison with Baselines)

📌 5.2.2 ReCon의 확장 가능성 (Scaling Trend of ReCon)

6. Conclusion

📌 ReCon의 일반화 가능성과 한계

📌 최종 정리

[논문리뷰] BIAS RUNS DEEP: IMPLICIT REASONING BIASES IN PERSONA-ASSIGNED LLMS

[논문리뷰] Persuasion Games with Large Language Models

0개의 댓글