https://export.arxiv.org/pdf/2502.18873
이 논문 "Multi-LLM Collaborative Search for Complex Problem Solving"은 복잡한 문제 해결을 위해 다중 대형 언어 모델(LLM)을 활용하는 Mixture-of-Search-Agents (MOSA) 패러다임을 제안합니다.
📌 논문의 핵심 내용
1. 배경 및 문제 제기
- 단일 LLM이 복잡한 추론 작업에서 한계를 가지는 이유:
- 추론 공간이 광범위하고 언어적 애매성이 존재.
- 기존의 Chain-of-Thought(CoT) 방식은 단계별로 논리를 전개하지만, 단일 LLM의 구조적 한계로 인해 지역 최적점(local optimum)에 갇힐 위험이 있음.
- 기존 검색 기반 방법(BFS, DFS, Best-first search 등)이 있지만, 단일 모델로 수행할 경우 탐색 다양성과 품질 균형을 맞추기 어려움.
2. MOSA 패러다임 소개
- 다중 LLM의 협력적 추론을 활용한 새로운 접근법.
- MCTS(Monte Carlo Tree Search) 기반으로 동작하며, 각 LLM이 독립적으로 또는 상호 협력적으로 검색 및 개선을 수행.
- 주요 특징:
- 서로 다른 LLM이 다양한 검색 방향을 제안하고, 이를 통해 다양성과 품질 균형을 유지.
- 단일 LLM이 탐색할 때보다 정확도가 향상됨.
3. 방법론
(1) 기존 MCTS 기반 추론 구조
- 기본적으로 검색 공간을 트리 구조로 설정.
- 상태(state)와 행동(action)으로 구성되며, 각 노드에서 새로운 추론 단계를 추가하여 확장.
(2) MOSA 방식
- 두 가지 역할 수행:
1️⃣ Proposers: 여러 개의 LLM이 독립적으로 서브질문과 답변을 생성 → 다양한 탐색 방향 확보.
2️⃣ Aggregators: 다수의 LLM이 생성한 답변을 모아서 집계 → 최종 답변을 개선 (단순 다수결 투표가 아니라, 신경망 기반 함수 활용).
- 이렇게 하면 탐색 다양성이 증가하면서도 품질을 유지할 수 있음.
4. 실험 결과
(1) 평가 데이터셋
- 4개의 논리 및 수리 추론 데이터셋 사용:
- GSM8K (수학 문제)
- SVAMP (수학 문제)
- MATH-500 (고난이도 수학 문제)
- StrategyQA (일반 상식 기반 추론 문제)
(2) 주요 비교 실험
- 기존 단일 LLM 방식(CoT, Self-Consistency)과 비교.
- MOSA 적용 시 모든 데이터셋에서 성능 향상 확인 (평균 1.71% 증가).
- 특히 MATH-500에서 성능이 1.8% 증가 → 복잡한 문제 해결에서 강점 발휘.
(3) 탐색 다양성과 성능의 관계
- 단일 LLM의 경우 온도(temperature) 조정으로 탐색 다양성을 증가시킬 수 있지만, 일정 수준을 넘으면 성능이 저하됨.
- MOSA는 다양성과 품질 균형을 자동으로 조절하므로 단일 LLM보다 일관된 성능 유지.
(4) 다중 LLM 개수에 따른 성능 변화
- 사용된 LLM 수가 많을수록 성능 향상.
- 하지만 3개에서 4개로 증가할 때 일부 데이터셋(MATH-500)에서는 성능이 소폭 감소하는 경우도 발생.
5. 결론 및 시사점
- 다중 LLM 협력을 활용한 MOSA가 기존 단일 LLM 검색 방법보다 효과적.
- 특히 탐색 다양성을 높이면서도 품질을 유지하는 점에서 강점.
- 추후 연구 방향:
- 추론 과정의 자동 최적화
- 더 많은 LLM을 활용한 실험
- 다양한 검색 알고리즘 적용 가능성 검토
🔥 요약
✅ 단일 LLM은 복잡한 문제 해결에서 탐색 다양성과 품질 균형을 유지하기 어려움
✅ MOSA는 다중 LLM을 활용하여 탐색을 분산하고 협력적으로 개선하는 새로운 방식
✅ MCTS 기반 탐색을 활용해 LLM 간 협업을 강화 → 탐색 효율성 및 정답률 향상
✅ 실험 결과, 기존 방법 대비 평균 1.71% 성능 향상, 특히 수학 문제에서 강력한 성능
✅ 다중 LLM 협업이 기존 검색 기반 추론의 한계를 극복할 수 있음을 입증
이 논문을 통해 다중 LLM 협력 방식이 단일 모델보다 더 효과적으로 복잡한 문제를 해결할 수 있음을 확인할 수 있습니다. 🚀