https://arxiv.org/pdf/2409.07487
"MoA is All You Need: Building LLM Research"는 금융 분야에서 대형 언어 모델(LLM) 연구를 위한 실용적인 다중 에이전트 기반의 RAG(검색 강화 생성) 프레임워크, Mixture of Agents (MoA)를 제안합니다. MoA는 여러 개의 소형 언어 모델을 통해 구성된 에이전트 네트워크로, 각 에이전트가 고유한 전문 지식과 연결 구조를 가지고 질문 응답과 정보 추출을 수행합니다. 이 접근법은 비용과 속도 문제를 고려하면서 더 높은 품질의 결과를 제공하는 다목적 엔터프라이즈용 RAG 시스템을 목표로 합니다.
MoA 방법론의 주요 내용:
MoA는 시스템 중심의 RAG 접근법으로, 특히 금융과 같은 기업 환경에서 대형 데이터셋에 대해 정확도와 비용 효율성을 극대화하는 것을 목표로 합니다.
금융 분야에서 대형 언어 모델(LLM) 연구는 수많은 접근 방법으로 인해 특히 복잡합니다. 이러한 분야에서 검색 강화 생성(RAG)은 내재된 근거 제시 능력과 다양한 데이터 소스 활용이 가능하다는 점에서 중요한 방법으로 자리 잡았습니다. 이 연구에서는 Mixture of Agents (MoA)라는 RAG 프레임워크를 소개하며, 이를 맞춤형으로 확장할 수 있고 효과적인 접근 방식으로 제시합니다. MoA는 각각의 질문에 답하고 정보를 추출하기 위해 개별적으로 맞춤화된 소형 언어 모델들이 계층적으로 구성된 네트워크입니다. 이와 같은 아키텍처에 대한 이론적 제안과 이를 실제로 적용하는 라이브러리가 일부 존재하지만, 비용과 속도와 같은 실제 비즈니스 제약을 고려한 MoA 프레임워크의 가능성을 평가한 문서화된 연구는 제한적입니다. 본 연구에서는 Vanguard의 금융 비즈니스에서 핵심적인 여러 분야에 걸쳐, 소형 언어 모델로 구성된 MoA가 더 낮은 비용을 유지하면서도 더 높은 품질의 근거 있는 응답을 제공함을 확인했습니다.
머신러닝 커뮤니티에서는 일반적으로 단일 모델 접근 방식이 예측 능력 면에서 다중 모델(앙상블 모델) 접근 방식에 미치지 못한다는 것이 잘 알려져 있습니다. 주요 이유 두 가지는 다음과 같습니다:
초기에는 LLM들이 계산 복잡성과 환각(hallucination)의 위험으로 인해 단일 밀집 트랜스포머 접근 방식을 사용했습니다. 그러나 최근 연구 커뮤니티는 환각률이 낮고 출력 품질이 향상되며 정보 탐색 능력이 더 나은 드문 앙상블 모델에 초점을 맞추고 있습니다. 여러 LLM을 순차적 또는 병렬적으로 배치하여 실제 기업의 조직 구조와 유사한 네트워크를 구축함으로써 LLM들이 보다 정교한 방식으로 협력할 수 있는 잠재력을 발휘할 수 있습니다.
단순 분류 작업을 넘어서 데이터베이스, API 및 기타 소스의 정보를 기반으로 작업을 수행할 수 있는 LLM들은 "에이전트"로 불립니다. 이러한 개별 에이전트와 여러 에이전트로 구성된 시스템은 "Socratic AI", "Agentic AI" 등으로도 불리며, 매우 강력하여 인간보다 훨씬 효율적으로 작업을 수행할 수 있습니다. 본 논문에서는 MoA 시스템을 각각의 에이전트가 맞춤형 연결, 프롬프트, 지식을 갖춘 에이전트들로 이루어진 앙상블 시스템으로 정의합니다.
기존 연구는 주로 이론적인 관점에서 앙상블 LLM을 탐구하며, 이러한 시스템에서 오차가 개선되는지 여부를 실험으로 확인하고자 했습니다. 연구는 앙상블 LLM이 단일 모델보다 분류 정확도를 향상시키고, 토론을 통해 복잡한 문제를 해결할 수 있음을 보여주었습니다. 또한, 생물의학, 금융, 연구 도메인에서의 잠재적 활용 사례가 많다는 점도 확인되었습니다. 하지만, 앙상블 LLM의 주요 단점은 비용과 속도이며, 병렬 또는 순차적으로 여러 모델을 실행하는 것은 계산 비용이 높고 생성 속도가 느려진다는 것입니다.
그림 1: 단일 vs. 다중 에이전트 시스템 구성.
실제 환경에서는 단일 모델 접근 방식이 보다 일반적입니다. Mistral AI의 Mixture of Experts (MoE) 모델에 대한 연구는 부분적으로 전통적 머신러닝의 앙상블 모델에서 영감을 받은 것으로 보입니다. Mistral의 Mixtral 8x16 MoE 모델은 혁신적인 아키텍처 덕분에 기존 오픈 소스 경쟁을 뛰어넘는 성능을 보여줬으며, 이는 본 연구에 영감을 주었습니다. MoE가 단일 모델 내에서 앙상블 학습을 적용하는 모델 중심 접근 방식이라면, MoA는 여러 모델에 걸쳐 앙상블 학습을 적용하는 시스템 중심 접근 방식입니다. OpenAI도 이러한 앙상블 개념을 포용하고 있으며, GPT-4는 MoE의 영향력 있는 구현 중 하나로 알려져 있습니다. GPT 시리즈는 GPT-4를 기반으로 한 에이전트 사용을 적극적으로 탐색 중입니다. AIFlows, Langchain, Microsoft Autogen과 같은 라이브러리가 에이전트 및 LLM의 프로그램 구성을 가능하게 하지만, 비용과 사용자 경험을 주요 고려 사항으로 MoA 시스템의 실용성을 입증한 연구는 아직 매우 제한적입니다. Vanguard의 Investment Management Fintech Strategies (IMFS) 팀에서는 MoA가 이러한 제약을 충족시킨다는 초기 데이터를 제시하고 있습니다.
MoA는 소형 언어 모델로 구성되어 비용 효율적이며, 고품질 데이터 엔지니어링과 결합할 경우 단일 대형 언어 모델과 견줄 만한 속도와 확장성을 갖출 수 있습니다. 이러한 특성 덕분에 MoA는 대부분의 기업용 사례에 적합한 접근법으로 평가받고 있습니다.
MoA 프레임워크에서 각 에이전트는 금융 관리 분야의 주니어 연구원 역할을 하며, 고유한 지식 접근성을 바탕으로 다양하고 지능적인 에이전트로 커스터마이징될 수 있습니다. 예를 들어, 10-K/Q 수학 에이전트는 GPT-4 모델 인스턴스에 회계 용어 및 항목에 대한 정의적 이해를 갖추고 있으며, 수학 작업에 맞춰 미세 조정된 프롬프트와 SQL 데이터베이스의 분석가 노트에 접근해 복잡한 계산 작업을 수행합니다. 반면, 10-K/Q 감정 분석 에이전트는 Llama-2 기반으로 주식 감정 분류에 특화된 데이터에 접근하여, 실제 긍정 및 부정 문구를 분석하고 감정 분석을 수행하도록 설정됩니다.
이와 같은 고도로 특화된 에이전트 구성을 통해 단일 모델보다 훨씬 높은 응답 품질을 제공할 수 있으며, 복잡하고 세부적인 질문에 대해 더 높은 정확도와 깊이로 응답할 수 있습니다.
에이전트가 커스터마이징 및 구축된 이후에는 다양한 고급 작업을 처리하기 위해 에이전트 파이프라인을 구성할 수 있습니다. 이는 각기 다른 배경의 전문가들이 한 팀으로 협력하는 연구팀과 비슷합니다. 예를 들어, 다양한 에이전트에 인접한 질문을 제시해 보다 구체적인 응답을 받고, 이를 종합하여 완성도 높은 답변을 생성할 수 있습니다.
또한, MoA는 각 에이전트를 휴리스틱, API 호출 또는 다른 하위 프로세스로 대체하여 추가 정보를 수집하고 집계하는 데 유연하게 대응할 수 있습니다. 이 시스템은 에이전트의 구성과 데이터 엔지니어링 능력에 크게 의존하기 때문에 응답 품질을 높이기 위해 고도로 맞춤화될 수 있습니다. Vanguard의 IMFS 팀에서는 MoA 시스템을 활용하여 수만 건의 문서를 동시 분석할 수 있는 수준으로 확장하였습니다.
MoA는 더 높은 수준의 에이전트가 하위 에이전트의 출력을 요약하거나 감독하면서 불필요하거나 부정확한 정보를 필터링할 수 있는 독특한 속성을 가지고 있습니다. 흥미롭게도 "복합 오차(compounding error)"는 단일 연속 모델 스트림에서 발생하지만 MoA에서는 발생하지 않는다는 점이 관찰되었습니다.
MoA는 모델 자체의 특성인 MoE와 달리, LLM 시스템 전체의 특성으로 간주됩니다. 이 연구에서는 개별 모델 성능 평가보다는 시스템 수준에서의 높은 수준의 결과에 초점을 맞추고 있습니다. 기존 연구와 일치하게, MoA와 같은 복잡하게 얽힌 네트워크가 단일 작업 흐름보다 우수한 성과를 보였습니다. 시스템이 확장되고 추상화 계층이 증가할수록 대기 시간과 잠재력이 함께 증가하며, 더 높은 수준의 추상화는 인간 연구자의 작업 단계를 절약할 수 있습니다. MoA는 단일 모델 시스템보다 효율적인 RAG 파이프라인 향상을 원하는 이들에게 효과적인 솔루션을 제공합니다.
MoA는 RAG 구현에서 정보 표출 기능을 강화해 출력 품질을 높입니다. RAG 시스템에서 가장 우려되는 점 중 하나는 컨텍스트 윈도우입니다. 컨텍스트 윈도우가 작으면 모델이 사용할 수 있는 데이터의 범위가 제한되기 때문에 MoA는 여러 에이전트 시스템을 통해 컨텍스트를 여러 전문가 에이전트에 분배해 더 높은 정밀도를 보장하며, 잘못된 중간 정보 손실 가능성을 줄입니다. 또한 에이전트별로 프롬프트를 맞춤화하면 응답 품질과 통찰력이 대폭 향상됩니다.
예를 들어, Vanguard에서는 MoA를 활용해 연구자가 참조하는 문서에서 중요한 정보를 추출합니다. 각 에이전트가 다른 컨텍스트를 제공함으로써 연구자가 놓치기 쉬운 정보를 표출해 더 깊이 있는 통찰을 제공합니다.
MoA는 고도의 응답 품질을 제공하면서도 미세 조정(fine-tuning)이 필요 없습니다. MoA 시스템을 OpenAI의 GPT-4 및 Anthropics의 Claude 3 Opus와 비교한 결과, MoA는 주어진 문서에서 더 많은 중요한 정보를 효율적으로 추출해 경쟁력을 입증했습니다. 예를 들어, Apple의 2023년 1분기 실적에서 수익 성장과 관련된 정보를 추출하는 실험에서 MoA는 Claude와 함께 미래 상황에 대한 보고에 강점을 보였습니다.
현재 MoA 시스템의 강점은 비용 효율성과 단순성에 있습니다. MoA는 단일 모델과 동일한 모델 및 엔드포인트를 여러 번 활성화하여 인퍼런스를 수행할 수 있으며, 클라우드 기반 컴퓨팅 리소스를 사용하는 기업에서는 MoA와 단일 모델 시스템 간의 비용 차이가 거의 없습니다.
다만, MoA는 동시 인퍼런스에 더 높은 요구를 하며, 사용자가 늘어날수록 더 많은 엔드포인트가 필요합니다. Vanguard의 MoA 시스템은 매월 $8,000 미만의 비용으로 수만 건의 문서 검색을 60초 이내에 처리하며, 단일 모델 시스템에 비해 약 4.07배의 지연 시간을 보입니다.
MoA는 모델 수에 따라 속도와 컨텍스트 윈도우가 선형적으로 확장됩니다. 예를 들어, 네 개의 모델로 구성된 MoA를 통해 총 인퍼런스 시간이 4배 증가하고, 컨텍스트 윈도우가 3배 증가했습니다. 이는 RAG의 장점을 최대화하면서도 비용과 확장성 측면에서 실용적인 한계를 충족하는 효율적인 시스템임을 의미합니다.
MoA는 단일 모델 기반 LLM 시스템에 비해 우위를 유지하는 강력한 프레임워크입니다. Vanguard에서는 소형 언어 모델이 효율성과 정확성 측면에서 현재와 미래에 가장 적합하다는 가설을 지지해 왔으며, MoA는 이러한 가설을 확장한 것입니다. MoA는 오픈 소스 모델과 10억 파라미터 미만의 소형 모델을 사용하여 기존 대비 훨씬 낮은 비용으로 운영할 수 있도록 했습니다. 대부분의 언어 모델 연구 커뮤니티도 유사한 결론에 도달하고 있어, MoA가 산업 표준이 될 가능성이 높다고 보고 있습니다.
MoA 시스템에서는 각 에이전트의 응답이 최종 집계자에게 입력으로 제공되기 때문에, 사용자가 모든 에이전트의 개별 출력과 최종 결과를 확인하고 오류나 환각 여부를 평가할 수 있습니다. 이는 RAG 시스템의 확장 버전으로서 MoA가 투명성과 신뢰성을 유지하도록 합니다. 특정 상황에서는 MoA 시스템의 최종 출력보다 개별 에이전트의 출력이 더 유용할 수 있는데, 이 경우 사용자에게 개별 에이전트의 응답을 함께 제공하여 보다 주관적인 판단을 할 수 있도록 지원합니다.
Vanguard에서는 MoA 시스템의 환각 발생을 줄이기 위한 다양한 보호 장치를 개발해 왔습니다. 가장 어려운 작업 중 하나는 모델이 관련 데이터셋을 보유하지 않은 질문에 대해 "모르겠다"라고 응답하도록 훈련시키는 것이었습니다. 이러한 보호 장치는 휴리스틱 기반 점검부터 복잡한 임베딩 비교에 이르기까지 다양하며, 이를 통해 출력의 신뢰성과 정확성을 보장합니다.
MoA는 비용, 출력 품질, 투명성 등 다양한 특성을 비교한 결과, 기업 수준의 RAG 파이프라인에 가장 적합한 시스템으로 결론지어졌습니다. 본 분석은 Amazon AWS 기술 스택을 기반으로 수행되었으며, 비용 효율성을 더 높일 수 있는 Fireworks AI나 Groq와 같은 더 빠른 인퍼런스와 확장성을 제공하는 제공자를 통해 성능을 더욱 향상시킬 수 있을 것입니다. MoA의 출력 품질이 단일 LLM 시스템을 능가함에 따라, MoA는 기업용 표준으로 자리 잡을 가능성이 큽니다.