[논문 리뷰] Multi-LLM Debate: Framework, Principals, and Interventions (2024)

tu11p·2025년 1월 13일

LLM Multi-Agent agent mas 논문리뷰

Paper Review

목록 보기

11/15

논문 링크

From NeurIPS, 2024

0. Abstract

Debate를 이론적으로 분석하고, 수학적으로 분석하는 framework를 제안한다.
이를 바탕으로 Multi-Agent 에서의 Debate에 대한 여러 이론적 결과를 제시한다.
모델 간 비슷한 성능이나 응답은 토론 과정이 majority opinion으로 단순 수렴되는 정적 토론을 초래할 수 있음을 보인다.
- 이런 majority opinion이 common misconception(모델의 공유된 학습 데이터에 의해 가능)에서 비롯된 경우, 토론은 이런 misconception과 관련된 답변으로 수렴할 가능성이 크다.
이런 이론적 결과를 바탕으로, 토론의 efficacy를 개선하는 3가지 intervention을 제안.
- 각 intervention에 대해 개선 방법을 설명하는 이론적 결과를 제시하고, 4가지 벤치마크 작업에서 성능이 향상됨을 보인다.

1. Introduction

LLM은 다른 모델로부터 의견을 수집하고 처리할 수 있는 능력을 갖고 있다.
이전 연구에서는 위 능력을 바탕으로 LLM이 토론에 참여해 협력적으로 task를 해결함을 보인다.
Multi-agent debate는 각 모델에게서 응답을 얻고, 그 응답을 모델들 간에 배포하며, 각 모델로부터 갱신된 응답을 다시 얻는 방식으로 진행된다.
이 연구는 debate process를 더 잘 이해할 수 있는 이론적 프레임워크를 제시하여 이를 탐구한다.
- 베이지안 추론과 In-Context Learning에서 영감을 얻어, 토론을 부분적으로 ICL의 특수 유형으로 볼 수 있음을 보인다.
- 이 프레임워크를 통해 Multi-agent debate가 Echo-Chamber Effects에 취약하다는 것을 입증한다.
  - Echo-Chamber effect는 특히 모델 다수 사이에 공유된 misconception에서 비롯된 경우 더 큰 영향을 미친다.
  - 참고: Echo-Chamber effect(반향실 효과): 같은 입장을 지닌 정보만 지속적으로 되풀이하여 수용하는 현상을 비유적으로 나타낸 말 (위키백과)
- 이후 프레임워크에서 도출한 결과를 활용해 토론 절차의 효율성을 개선하기 위한 세 가지 intervention을 제안한다.
  - 1) Diversity Pruning: 각 debate 단계에서 모델 응답의 information entropy를 최대화하는 것을 목표로 한다.
  - 2) Quality Prunung: 각 모델의 응답의 관련성을 최대화 하는 것을 목표로 한다.
  - 3) Misconception Refutation: 모델 응답에서 오해를 식별하고 반박하려고 시도한다.
  - 이 interventions은 모델이 직접 답변을 제공하는 것보다 평가하는 데 더 능숙하다는 이전 연구들에서 영감을 얻었다.
- 각 intervention에 대해 토론이 어떻게 개선되는지 설명하는 이론적 결과를 제시하고, 4개의 벤치마크에서 interventions이 실제로 토론의 efficacy를 개선함을 실험적으로 증명한다.
기여점
- 1. 베이지안 추론과 ICL의 연관성을 활용한 Multi-LLM debate의 이론적 프레임워크 제안
- 1. Multi-LLM debate의 여러 주요 원칙에 대한 이론적 통찰 제공
- 1. 이 통찰을 활용해 4개의 언어적 벤치마크 및 3개의 LLM에서 debate의 성능을 일관되게 개선시키는 3가지 debate interventions을 설계

본 연구는 Multi-agent debate와 밀접한 관련이 있다.
- agent들 간의 iterative 협력을 통해 결정을 내리는 과정에 초점을 맞추고 있다.
- 이런 연구들은 주로 QA task의 맥락에서 multi-agent debate을 다루며, single model보다 더 높은 품질의 답변을 제공하기 위해 여러 모델을 토론에 참여시키는 것을 목표로 한다.
- Du et al. [2023, Improving factuality and reasoning in language models through multiagent debate]이 제안한 초기 debate framework에서는 먼저 각 모델에 질문을 던지고, 이전 라운드에서 모든 모델의 응답을 맥락화하여 동일한 질문을 다시 던지는 방식으로 토론을 진행한다.
- 이 절차의 다양한 변형도 제안된다.
  - 다른 기능을 가진 모델 간의 debate (Liang et al. [2023, Encouraging divergent thinking in large language models through multi-agent debate])
  - Round-robin 방식의 debate (Chat et al. [2023, Towards better llm-based evaluators through multi-agent debate])
  - agent 간 의견 차이를 동적으로 조절하는 debate (Chang [2024, Evince: Optimizing adversarial llm dialogues via conditional statistics and information theory])
  - debater의 correctness를 평가하기 위한 judge를 사용하는 방식 (Khan et al. [2024, Debating with more persuasive llms leads to more truthful answers])
- 답변 품질을 iterative하게 향상시키기 위한 다른 기법도 제안되었다.
  - CoT, Zero-shot-CoT, self-consistency(+Med-PALM2), self-reflection
토론과 유사한 방식의 LLM 활용에 대한 연구도 진행되어 왔다.
- 서로 다른 LLM이 상효작용하는 방식이나,
  - (Liu et al. [2023, Dynamic llm-agent network: An llm-agent collaboration framework with agent team optimization])
  - (Abdelnabi et al. [2023, Llm-deliberation: Evaluating llms with interactive multi-agent negotiation games])
  - (Zhang et al. [2023, Exploring collaboration mechanisms for llm agents: A social psychology view])
  - (Li et al. [2023, Tradinggpt: Multi-agent system with layered memory and distinct characters for enhanced financial trading performance])
  - (Park et al. [2023, Choicemates: Supporting unfamiliar online decision-making with multi-agent conversational interactions])
- LLM이 자신의 추론을 설명하는 방식,
  - (Wang et al. [2024, Can chatgpt defend its belief in truth? evaluating llm reasoning via debate])
- general task에 협력적으로 수행하는 방식
  - (Li et al. [2023, Communicative agents for" mind" exploration of large scale language model society])
  - 등등
일부 연구에서는 토론 과정이 불안정할 수 있으며, 단일 모델을 사용하는 것보다 오히려 성능이 저하될 수 있음을 보여주기도 했다.
- (Wang et al. [2024, Rethinking the bounds of llm reasoning: Are multi-agent discussions the key?])
- (Smit et al. [2023, Are we going mad? benchmarking multi-agent debate between language models for medical q&a])
본 연구는 ICL과 베이지안 추론과도 관련이 있다.
- ICL은 LLM이 몇가지 example만 제공받았을 때도 unseen task를 수행할 수 있음을 보인다.
- 다른 연구들은 ICL과 베이지안 추론 간의 연관성을 보여준다.
  - 모델에 제공되는 additional example은 토큰에 대한 모델의 사후 분포(posterior distribution)을 업데이트하는 것으로 볼 수 있다.

3. Preliminaries

Debate

x를 question, y를 관련 답변이라 하자. 예를 들어, x=’하늘은 무슨 색인가요?’ 이고 y=’파랑’ 일 수 있다.
Du et al. [2023, Improving factuality and reasoning in language models through multiagent debate] 이 제안한 토론 절차에 따르면, n개의 LLM(이하 agent라고도 함)으로 구성된 집합이 T 라운드에 걸쳐 iterative하게 discussion을 수행해 올바른 답변 y을 추론하며 절차는 다음과 같다.
- t=0 라운드에서, 각 에이전트 i는 작업 x를 관찰한 후 응답 z_i^(0)을 제공한다.
- t>0 라운드에서, 각 에이전트 i는 작업 x와 이전 라운드의 모든 에이전트 응답 Z^(t-1) = z_1^(t-1), … , z_n^(t-1))을 관찰한 후, 갱신된 응답 z_i^(t)를 제공한다.
- 토론 과정은 t = T이거나, 에이전트들이 합의에 도달할 경우 종료된다.
합의에 도달했는지 여부를 측정하기 위해 함수 a가 주어진 응답 z에서 답변을 추출한다.
- 예를 들어, z=’낮에는 하늘이 파랗습니다’라면 a(z)=’파랑’이다.
- t 라운드에서, agent i가 갱신된 응답 z_i^(t+1)을 제공할 확률은 다음과 같다.
- 모델의 하이퍼 파라미터는 훈련 데이터, 아키텍처 등을 의미한다.
- 각 라운드에서 모든 agent는 동일한 입력(Z^(t), x)를 관찰한다.
- 따라서 출력z_i^(t+1)의 차이는 출력 생성의 확률적 성격과, 각 모델의 하이퍼 파라미터에 의해 결정된다.
본 연구에서의 접근 방식과 ‘일반적인’ 토론의 주요 차이점은 각 토론 라운드 사이에 Z^(t) 응답을 수정하기 위해 latent concept을 활용한다는 것이다.

Latent Concepts

이전 연구에서 설명되었듯이, 잠재 개념은 언어가 무작위로 생성되지 않는다는 생각을 담고 있다.
즉, 인간이든 모델이든 언어를 생성할 때, 먼저 마음 속에서 아이디어나 의도가 형성된 후, 그 아이디어나 의도를 전달할 단어를 선택한다.
더 formal 하게는, Θ를 latent concept space라 하고, θ ∈ Θ를 concept라 설정한다면,
- Xie ek al. [2021]에 따르면, task x와 관련 답변 y는 먼저 latent concept θ ∈ Θ에서 벡터를 선택하고, 이후 (x,y) ~ D(θ)를 샘플링하여 생성된다.
- 여기서 D는 concept에서 task-answer pair로 매핑하는 distribution을 나타낸다.
유사하게, 모델이 응답을 제공할 때, x를 관찰하고, 잠재 개념 θ 또는 더 일반적으로 잠재 개념 공간에 대한 분포를 추론한 후, 추론한 개념에 따라 응답을 생성한다.
- 즉, 위에서 주어진 모델 생성 확률 수식은 아래와 같이 표현될 수 있다.
- 위 식은 잠재 개념 공간 Θ에 대해 항상 성립한다.
잠재 개념의 예시
- BoolQ 데이터셋에서의 QA task
  - Q: “Abraham Lincoln이 영화 Saving Private Ryan에서 편지를 썼습니까?”
  - A: “Yes”
  - 이 경우, 잠재 개념은 영화의 한 장면, 즉 Lincoln이 쓴 Bixby letter가 병사들 앞에서 읽히는 장면과 관련있다.
    - 본 연구 case와 마찬가지로, 먼저 concept θ가 선택되고, 이후 영화에서 문자열 x가 샘플링된다(즉 영화와 관련된 질문이 생성된다).
- 산술 계산, ex. 곱셈
  - 언어로 곱셈은 “4 * 4” 와 같은 형식으로 작성 가능
  - 이 문자열의 잠재 개념은 곱셈의 매커니즘을 나타낸다.
    - 예를 들어, 곱셈은 덧셈의 반복이며, 덧셈은 숫자 값을 반복적으로 1씩 증가시키는 것
- 그러나 잠재 개념은 더 추상적일 수 있다
  - 알려지지 않은 임베딩 공간의 벡터로 표현될 수 있다.

4. A Theoretical Fomulation of Multi-Agent Debate

Multi-Agent Debate의 이론적 공식화를 제시한다.
- 토론의 내부 동작 방식을 이해하는데 중요한 통찰을 제공하며, 이를 통해 토론을 개선하려 한다.
프레임워크의 핵심은 잠재 개념의 아이디어와 각 모델의 생성 확률의 확장(두번째 수식)을 활용해 토론을 더 잘 이해하는 것이다.
그전에 중요한 가정이 있다.

Assumption 4.1

주어진 잠재 개념 공간 Θ에서, 응답 z_i^(t+1)을 생성할 확률은 concept θ ∈ Θ와 모델 파라미터 ϕ_i를 고려했을 때, 이전 응답 Z^(t)와 task x에 대해 조건적으로 독립적이다. 즉,
이는 모델의 generation z_i가 모델 파라미터 ϕ_i와 모델이 identify한 concept(θ)에 의해 고유하게 결정됨을 의미한다.
- 인코더-디코더 기반 모델의 경우 ϕ와 θ의 결합은 인코더가 생성한 임베딩이라고 할 수 있다.
- 이 임베딩을 사용하면 원래의 입력 (x, Z^(t))는 더이상 모델의 출력을 결정하지 않고, 대신 임베딩과 모델 매개변수 만이 모델 출력을 고유하게 결정한다.
다음으로, 토론 라운드가 진행됨에 따라 모델 응답이 어떻게 진화하는지 조사하는데 유용한 아래 Lemma 4.2를 도출한다.

Lemma 4.2

시간 t+1에서 모델 i의 generation은 아래와 같이 표현 가능하다. (skew: 왜곡)
이 lemma의 중요성은 응답 z_i^(t+1)을 생성할 확률을 이전 응답 Z^(t)없이 생성하는 확률과, 이전 모델 응답에 의해 발생한 왜곡항(skew term)으로 표현할 수 있다는 것이다.
(수식이 많아 캡처로 대체)

Debate and In-Context Learning

Xie et al. [2021]의 연구를 통해 잠재 개념의 역할을 이해한다.
- 이 연구는 잠재 개념에 대한 베이지안 추론을 사용해 ICL을 이해한다.
ICL과 Multi-agent debate는 자연스러운 연결점이 있다.
- ICL은 다음과 같이 동작한다.
  - Task x와 모델 f에 대해, x와 유사한 task-anwer pair (x_1, y_1), … , (x_m, y_m)을 선택한다.
  - 이후 모델 f에게 (x_j, y_j)를 예로 들어 task x에 대한 answer z= f(x|(x_1, y_1), … , (x_m, y_m))을 요청한다.
- Xie et al. [2021]의 핵심 결과는 예제 (x_j, y_j)에 포함된 잠재 개념, 특히 다수 예제 간에 공유된 개념이 답변 z에 영향을 준다는 것이다.
이와 유사하게 이전 라운드의 모델 응답 Z^(t)는 ICL의 예제와 같은 역할을 한다.
- 다음 라운드 t+1에서 모델의 갱신된 응답 z_i^(t+1)은 Z^(t)에 공유된 개념에 영향을 받는다.
- Lemma 4.2에서 왜곡항(skew term)은 Z^(t)에 의해 전달된 잠재 개념이 z_i^(t+1)의 생성에 영향을 미치는 방식을 보여준다.
- 즉 (식에서)∏ ~~ 는 모델 생성 확률에 가중치를 부여한다.

4.1 Debate Objective

이런 관점에서 debate process를 설계하면 concept space Θ를 활용해 효과적으로 토론을 수행할 수 있다.
이를 위해 토론을 최적화 문제로 공식화하며, Lemma 4.2의 왜곡항이 최적화 변수가 된다.
task x와 answer y에 대해 각 토론 라운드는 아래와 같은 최적화 문제로 공식화된다.
시간 t에서, 다음 단계에서 올바른 answer를 제공할 확률을 최대화하도록 Z^(t)를 작성하는 것을 목표로 하며, 이 objective를 잠재 개념 공간 Θ를 사용해 확장하면 아래와 같다.
이 objective를 직접 최적화하는데 있어서 주요 challenge들은:
- 1. task x와 answer y가 유래된(생성된) true concept θ*, 응답 z_j^(j)와 underlying concept 간의 관계가 알려져 있지 않다.
- 1. Z^(t)의 응답은 자연어로 이루어져 있다.
그럼에도 concept space 안에서 여러 approach를 설계해 더 잘 최적화할 수 있으며, 그런 방식을 설계하기 위해 토론 절차 전체를 더 살펴볼 필요가 있다.

5. Debate Principals

LLM debate의 효율성에 영향을 미치는 factor를 살펴본다.
- 특히 Z^(t)의 응답 다양성과 모델 능력의 다양성 측면에서 정보 다양성의 역할을 살펴본다.
  - 어느 측면에서든 다양성이 부족하면 토론 과정에 부정적인 영향을 미침을 확인한다.
- 또한, 토론에서의 특정 유형의 homogeneity, 즉 모델 대다수가 동일한 잘못된 신념을 공유하는 경우를 연구한다.

5.1 Information Diversity

모델 능력과 모델 응답의 다양성이 토론 절차에 미치는 영향을 살펴본다.
- 능력이나 응답의 동질성은 토론 절차를 특정 잠재 개념으로 편향시킬 수 있다.

Similar Model Capabilities

토론 과정이 한 가지 타입의 모델로만 진행된다고 가정한다. 즉, n개의 동일한 모델 카피를 사용.
- 따라서 모든 i ∈ [n]에 대해 ϕ_i = ϕ인 경우이다.
- 이 경우 agent 수가 증가함에 따라 토론 절차는 에코 챔버 효과에 더 영향을 받게 된다.
  - 즉, 에이전트들이 받아들이는 가장 유력한 개념이 변화할 확률은 0에 가까워진다.
- 그 말인즉, 더 많은 수의 similar agent는 static debate dynamics를 초래하며, 이는 debate의 본래 목적을 저해한다.

Theorem 5.1

(수식 생략)

내용: 동일한 모델의 copy나 매우 유사한 모델로 토론이 진행될 때, 모델의 수를 증가시키는 것은 하나의(변화하지 않는) 개념으로 토론을 수렴하게 만든다는 것을 의미한다.
- 이는 여러 개념의 균형있는 분포 대신 특정 개념으로 집중되는 결과를 초래한다.

Similar Model Opinions

모델의 유사한 응답이 collaboration process에 미치는 영향을 살펴본다.
t 시점에 n개의 응답 Z^(t)가 존재하고, 이 중 최소 m개의 응답이 유사하다고 가정한다.
- 즉, θ’라는 특정 개념이 존재하며, 이는 모든 j ≤ m 에 대해 P(θ∣z_j^(t),ϕ_i)값을 최대화한다고 할 수 있다.

Theorem 5.2

(수식 생략)

내용: 다수의 모델이 task x에 대해 유사한 응답을 제공할 경우, 그 반복된 응답이 다른 모델의 응답 뿐만 아니라, task x 자체를 압도할 수 있음을 나타낸다. 실제로 Section 7에서 그 현상이 발생함을 보인다.

5.2 Shared Misconceptions

모델 능력과 응답의 homogeneity의 particular type인 ‘Shared Misconceptions’에 대해 살펴본다.
모델들 사이에 공통적으로 잘못된 신념이 공유될 경우, 토론은 덜 효과적이며, 그 잘못된 신념과 관련된 잘못된 개념으로 수렴할 가능성이 높다.

Definition 5.3 (Misconception)

특정 개념 θ에 대해, 모델 i가 θ에 대한 오해를 갖고 있다고 하자.
이는 다른 개념 θ’가 존재하여, 아래를 만족할 때 성립한다.
즉, θ* 개념에서 생성된 task에 대해, 모델이 잘못된 개념 θ’이 task를 더 잘 설명한다고 믿는 경우이다.
m개의 agent가 동일한 잘못된 개념 θ’을 공유하는 경우, 이를 ‘shared misconception’이라 한다.
- 이런 경우 모델이 생성한 응답은 잘못된 개념 θ’에 biased 된다.

Theorem 5.4

참인 개념 θ*가 주어지고, n개의 agent 중 m개가 잘못된 개념 θ’에 대한 shared misconception을 갖고 있다고 가정한다.
- 그러면 task-answer pair (x,y) ∼ D(θ*)에서, 마지막 라운드 T의 토론 절차의 평균 정확성은 m에 따라 단조(monotonically) 감소한다. 즉,
- 위 식은 m이 증가함에 따라 감소한다.
잘못된 개념으로 수렴하는 현상은 더 많은 모델을 추가한다고 해서 쉽게 완화되지 않을 가능성이 있다.
- 한 모델의 misconception이 훈련 데이터에 의해 형성된 경우, 다른 모델들도 비슷한 훈련 데이터 간 높은 상관관계로 인해 동일한 misconception을 가질 가능성이 높기 때문

6. Interventions

토론 절차에 대한 interventions(수정, 개입)을 논의한다.
Intervention은 두 범주로 나눈다.
- 가지치기(Pruning): 전체 응답 Z^(t)에서 어떤 응답을 유지할지 선택하는 데 초점을 맞춤
- 수정(Modifying): Z^(t)의 응답을 변경하거나 편집하는 데 초점

6.1 Pruning Interventions

debate의 t 라운드에서, intervention은 t+1 라운드를 시작하기 전에 Z^(t)에서 하위집합 응답인 Z’^(t)을 선택하여 동작한다.
Pruning intervention을 사용할 때는, t+1라운드에서 모델은 pruned된 응답 집합인 Z’^(t)만을 보게 된다.(전체 응답인 Z^(t)가 아닌)

Diversity Pruning

KL divergence를 KL로 나타내면, diversity pruning intervention은 information entropy를 최대화하는 방향으로 Z^(t)의 n개의 응답에서 k개를 선택한다. (선택된 k개는 Z’^(t))

Quality Pruning

Quality Pruning은 Z^(t)에서 task x와 highest similarity를 갖는 k개의 응답을 선택하는 것을 목표로 한다.
Diversity Pruning과 유사하지만, quality pruning은 time t에서 n개 중 k개의 응답을 고른다.
- Quality pruning은 diversity에 대해 선택하는 대신, 질문에 대한 k개의 제일 유사한 응답을 고른다. 이는 아래와 같이 수행된다.

실제로 Diversity pruning과 Quality pruning의 수식에서, KL divergence 식을 계산하는 것은 비현실적이다.
- 그러나 sentence embedding을 해당 값을 대체하는 근사치로 사용할 수 있다.(Section C 참고)
다음은 모델이 shared misconception을 갖고 있는 경우, diversity pruning이 토론 절차가 해당 잘못된 개념으로 수렴될 가능성을 줄인다는 것을 보여준다.

Theorem 6.1

참인 concept이 θ∗이며, n/2 이상의 에이전트가 잘못된 개념 θ′에 대한 shared misconception을 가지고 있다고 가정한다. 이 경우, diversity pruning은 토론이 잘못된 개념 θ′에서 비롯된 답변 y′로 수렴할 확률을 줄인다. 즉, y′ ∼ D(θ′)이다.

Theorem 6.2

task-answer pair (x,y)에 대해, quality pruning은 토론이 올바른 answer로 수렴할 확률을 증가시킨다.
- 즉, Z^(t)를 시간 t에서 모든 응답 집합이라고 하고, Z’(t)를 quality pruning의 결과라고 한다면, 아래가 성립한다.

Remark 6.3

Theorem 6.1과 6.2에서 보여지듯, diversity pruning은 특정 concept에서 비롯된 잘못된 답변으로 토론이 수렴할 확률을 감소시키며, quality pruning은 옳은 concept에서 비롯된 올바른 답변으로 토론이 수렴할 확률을 증가시킨다.
두 intervention은 동시에 사용 가능하며, 이를 통해 잘못된 답변은 멀리하고 올바른 답변으로 토론 절차를 유도할 수 있다.

6.2 Modification Interventions

Misconception Refutation(오해 반박?)

Z^(t)의 응답 중 어떤 것을 다음 라운드에 사용할지 선택하는 것 외에도, Z^(t)의 응답을 수정할 수도 있다.
Misconception Refutation은 이 작업을 하며, z_j^(t) 응답을 task x와 더 관련있게 업데이트 하는 것을 목표로 한다.

앞선 두 개의 pruning과 마찬가지로, 위 식에서 KL divergence를 직접 구하는 것은 불가능하다.
- 따라서 업데이트를 위해 proxy를 사용한다.
- 특히 LLM이 주어진 응답 z_j^(t)를 최소로 수정해 z_j^*를 생성한다.
  - 모델은 먼저 응답에서 식별된 misconception과 오류의 목록을 요청받는다
  - 이후 misconception의 refutation과 수정된 응답을 모델에게 요청한다.

Theorem 6.4

task-answer pair (x,y)에 대해, Misconception Refutation은 토론이 올바른 답변으로 수렴할 확률을 증가시킨다.
- 즉, Z^(t), Z*^(t)가 각각 Misconception Refutation 전과 후의 응답이라면 아래가 성립한다.

7. Experiments

4개의 언어모델 벤치마크로 실험(BoolQ, MMLU, TruthfulQA, MathQ)
4개의 LLM 사용(GPT-3.5 Turbo, Llama-2 7B Chat, Llama-3 8B Instruct, Mistral 7B Instruct v0.2)
잠재 개념(Θ)의 프록시로 동작하는 sentence embedding은 OpenAI의 ADA-2
제안하는 3개의 intervention 조합을 Du et al.[2023]의 SoM(Society of Minds)와 비교

Tyranny of the Majority (다수 의견의 독재)

모델이 다수 의견을 따를 가능성 조사
모델은 echo chamer effect에 민감함이 보여졌다.
- Z^(t)에 majority answer가 포함된 정도가 늘어나면(m이 증가하면) model이 majority answer를 제공할 가능성이 증가한다.
Figure 1은 k=5의 diversity pruning이 에코 챔버 효과를 감소시킴을 보여준다.

Diversity of Opinions

제안하는 방법과 SoM이 opinion diversity에 따라 얼마나 효과적인지 조사
Figure 2: 4개 데이터셋에서 첫 라운드(t=0)의 응답 간 유사성(pairwise 코사인 유사도)에 따른 SoM(점선) 및 제안하는 방법(실선)의 Accuracy Improvement 향상 정도를 나타낸다.
- 첫 라운드에서 응답 간 유사성이 증가할수록 SoM의 효율성이 감소함이 나타난다.
- 이는 Theorem 5.1, 5.2와 같이 intervention 없는 토론에서 응답이 너무 유사하면 덜 효과적이라는 것과 일치한다.
제안하는 방법의 SoM대비 개선은 모델 의견이 유사할 수록 더 커진다.(MathQ는 반례)

Debate Interventions

3가지의 Intervention의 조합이 얼마나 효과적인지 조사

Figure 3: 제안하는 방법과 SoM의 각 라운드별 성능
- 제안하는 방법의 우위는 토론 후반 라운드에서 두드러짐
Table 1: 단일 모델, SoM, 제안하는 방법의 조합에 대한 결과
- 모든 경우에서 제안하는 방법은 SoM과 비교해 Competitive or superior
Supplement의 Table 3을 보면 각 intervention을 개별적으로 적용했을 때보다 세 가지를 동시에 적용할 때 가장 효과가 좋음을 보인다.
- 실제로 일부 intervention은 단독으로 사용되면 토론에 부정적인 영향을 줄 수 있으며, 이는 각 intervention이 상호 보완적으로 설계되었기 때문에 예상되는 결과이다.

8. Limitations

1. 제안하는 이론적 결과는 latent concept space를 활용하지만, 실제로는 이런 공간에 접근할 수 없는 경우가 많아 sentence embedding과 같은 대체 proxy를 사용해야 한다.
- 수학적 질문 같이 sentence embedding이 덜 의미있는 도메인에서는 제안하는 방법의 효과가 떨어진다.
1. 제안하는 intervention들은 토론 절차의 추론 시간을 증가시킬 수 있다.
- 주요 원인은 misconception refutation으로, 이는 각 참여자에게 여러번의 re-prompting을 요구하기 때문이다.

9. Conclusion

Multi-agent debate는 LLM response의 효율성을 향상시키는데 효과적이다.
그러나 토론은 본질적으로 tryanny of the majority나 shared misconception같은 문제에 취약하다.
본 연구에서는 이론적 토론 프레임워크를 활용해 이러한 문제를 완화하고 토론의 성능을 향상시키는 interventions를 확립했다.

tu11p

Anyone can be anything ... with agent!

이전 포스트

[논문 리뷰] Reflexion: Language Agents with Verbal Reinforcement Learning (2023)

다음 포스트

[논문 리뷰] Multi-LLM Debate: Framework, Principals, and Interventions (2024)

Paper Review

0. Abstract

1. Introduction

3. Preliminaries

Debate

Latent Concepts

4. A Theoretical Fomulation of Multi-Agent Debate

Assumption 4.1

Lemma 4.2

Debate and In-Context Learning

4.1 Debate Objective

5. Debate Principals

5.1 Information Diversity

Similar Model Capabilities

Theorem 5.1

Similar Model Opinions

Theorem 5.2

5.2 Shared Misconceptions

Definition 5.3 (Misconception)

Theorem 5.4

6. Interventions

6.1 Pruning Interventions

Diversity Pruning

Quality Pruning

Theorem 6.1

Theorem 6.2

Remark 6.3

6.2 Modification Interventions

Misconception Refutation(오해 반박?)

Theorem 6.4

7. Experiments

Tyranny of the Majority (다수 의견의 독재)

Diversity of Opinions

Debate Interventions

8. Limitations

9. Conclusion

[논문 리뷰] Reflexion: Language Agents with Verbal Reinforcement Learning (2023)

[논문 리뷰] Decision Transformer: Reinforcement Learning via Sequence Modeling (2021)

0개의 댓글

[논문 리뷰] Multi-LLM Debate: Framework, Principals, and Interventions (2024)

Paper Review

0. Abstract

1. Introduction

2. Related Work

3. Preliminaries

Debate

Latent Concepts

4. A Theoretical Fomulation of Multi-Agent Debate

Assumption 4.1

Lemma 4.2

Debate and In-Context Learning

4.1 Debate Objective

5. Debate Principals

5.1 Information Diversity

Similar Model Capabilities

Theorem 5.1

Similar Model Opinions

Theorem 5.2

5.2 Shared Misconceptions

Definition 5.3 (Misconception)

Theorem 5.4

6. Interventions

6.1 Pruning Interventions

Diversity Pruning

Quality Pruning

Theorem 6.1

Theorem 6.2

Remark 6.3

6.2 Modification Interventions

Misconception Refutation(오해 반박?)

Theorem 6.4

7. Experiments

Tyranny of the Majority (다수 의견의 독재)

Diversity of Opinions

Debate Interventions

8. Limitations

9. Conclusion

[논문 리뷰] Reflexion: Language Agents with Verbal Reinforcement Learning (2023)

[논문 리뷰] Decision Transformer: Reinforcement Learning via Sequence Modeling (2021)

0개의 댓글