[아이펠톤] LLM 토론 시스템 도입: DEEVO, DReaMAD 연구 분석

jul ee·2025년 8월 12일

데이터 성장기

목록 보기
139/139

이 프로젝트에서 개발 중인 SAR 분석 시스템은 Activity Cliff 현상을 분석하여 화학자들에게 신뢰할 수 있는 가설을 제공해야 한다.

단일 LLM을 사용할 때의 결과가 우려스러웠다. 같은 데이터를 여러 번 분석해도 일관성이 부족하고, 때로는 명백히 잘못된 화학 지식을 근거로 제시하는 할루시네이션 현상이 빈번할 것으로 보였다.

이런 상황에서 LLM 토론 시스템에 대한 최신 연구들을 접하게 되었다. 여러 LLM이 서로 토론하며 분석 품질을 향상시킨다는 아이디어는 매력적이었지만, 실제로 효과가 있는지, 그리고 우리 프로젝트에 어떻게 적용할 수 있는지 명확하지 않았다.

두 가지 핵심 연구를 살펴보았고, 이를 통해 LLM 토론 시스템 도입의 과학적 근거와 구체적 방법론을 찾을 수 있었다.




DEEVO 연구: 토론을 통한 프롬프트 자동 진화

📄 Tournament of Prompts: Evolving LLM Instructions Through Structured Debates and Elo Ratings, 2025

우리 SAR 분석 시스템에서 가장 큰 고민은 "어떤 프롬프트가 가장 좋은 분석을 만들어내는가"였다. 화학 분야는 정답이 명확하지 않은 영역이다. Activity Cliff 분석에서 "이 구조 변화가 활성 감소의 원인인가"라는 질문에 대해 절대적 정답은 존재하지 않는다. 여러 가설이 경쟁하는 상황에서 어떤 프롬프트가 더 나은 가설을 생성하는지 평가하기가 어렵다.

DEEVO 연구진들도 정확히 같은 문제를 지적했다. 기존 프롬프트 최적화 방법들의 한계는 다음과 같았다.

  • 수치형 적합도 함수 의존성: 명확한 정답이 있는 문제에만 적용 가능
  • 템플릿 기반 접근: 복잡하고 주관적인 작업의 요구사항을 포착하지 못함
  • 정적 최적화: 작업 특성 변화에 적응하지 못함

그들이 제시한 해결책은 진화 알고리즘과 다중 에이전트 토론을 결합하는 것이었다.

💡 핵심 아이디어는 이렇다.

두 프롬프트가 같은 문제를 해결하게 한 다음, LLM 심판들이 토론을 통해 어떤 답변이 더 나은지 결정하게 하는 것이다. 미리 정의된 평가 기준 없이 LLM 자체의 추론 능력만으로 품질을 판단한다는 점이 혁신적이었다.

이 방법이 효과적인 이유는 여러 라운드의 토론을 거치면서 각 답변의 강점과 약점이 명확히 드러나기 때문이다. 한 LLM이 놓친 부분을 다른 LLM이 지적하고, 이런 과정을 통해 더 객관적인 평가가 가능해진다.

실험 결과도 놀라웠다. 폐쇄형 작업에서는 기존 최고 방법 대비 상당한 정확도 향상을 보였고, 개방형 작업에서도 MT-Bench의 쓰기, 역할극, 인문학 부문에서 평균 1점 이상의 개선이 있었다.

특히 Elo 점수와 실제 성능 간의 상관관계가 0.87로 매우 높았는데, 이는 토론 기반 평가가 실제 품질을 정확히 반영한다는 의미다.

우리 프로젝트에 이를 적용하면,

여러 버전의 SAR 분석 프롬프트가 서로 경쟁하면서 점점 더 나은 프롬프트로 진화할 수 있다. 화학자가 수동으로 프롬프트를 개선하는 대신, 시스템이 자동으로 최적의 프롬프트를 찾아낼 수 있는 것이다.





DReaMAD 연구: 토론 시스템의 치명적 결함 발견

📄 Understanding Bias Reinforcement in LLM Agents Debate, 2025

DEEVO 연구를 분석하면서

토론 시스템이 과연 항상 좋은 결과만 가져올까?
여러 LLM이 토론한다고 해서 반드시 더 나은 결과가 나온다는 보장이 있을까?
혹시 우리가 예상치 못한 함정이 숨어있는 것은 아닐까?

하는 근본적인 의문이 들었다.

이런 의문은 우리 프로젝트에 토론 시스템을 도입하기 전에 반드시 확인해야 할 중요한 사항이었다. 만약 토론 시스템에 치명적 결함이 있다면, 단일 LLM보다도 못한 결과를 얻을 수도 있기 때문이다.

이 논문은 정확히 그런 의문에 답을 제공했다. 연구진들은 기존 다중 에이전트 토론 시스템에서 놀라운 현상을 발견했다. 토론이 오히려 편향을 강화하는 경우가 있다는 것이다.

이런 현상이 발생하는 이유를 분석해보니 논리적으로 명확했다.

대부분의 토론 시스템은 동일한 기본 모델을 복제해서 사용한다. 겉으로는 여러 에이전트가 토론하는 것처럼 보이지만, 실제로는 같은 추론 패턴을 가진 모델들이 서로의 편향을 확인하고 강화하는 상황이 벌어진다. 마치 비슷한 생각을 가진 사람들끼리 모여서 토론할 때 극단적 견해가 더욱 강화되는 인간의 "확증 편향"과 유사한 현상이다.

연구진들은 이 문제를 정량적으로 측정하기 위해 MetaNIM Arena라는 독창적인 벤치마크를 개발했다. 이 벤치마크가 우리에게 특별히 중요한 이유는 화학 분야와 유사한 특성을 가지고 있기 때문이다. 수학적으로 완벽한 답이 정해져 있으면서도 복잡한 전략적 추론이 필요한 조합 게임들을 사용했다.

Activity Cliff 분석도 마찬가지다. 이론적으로는 정확한 메커니즘이 존재하지만, 그것을 찾아내려면 화학적 지식과 논리적 추론을 결합한 복잡한 사고 과정이 필요하다. 따라서 MetaNIM Arena에서의 결과는 우리 화학 분야 적용에도 직접적인 시사점을 제공한다.


기존 다중 에이전트 토론 시스템의 실험 결과는 충격적이었다.
  • 최적의 정보가 주어져도 편향된 패턴에 수렴
  • 토론 라운드가 증가할수록 정확도 오히려 감소
  • 추론의 다양성 30% 감소

이는 우리가 토론 시스템을 잘못 설계하면 단일 LLM보다도 못한 결과를 얻을 수 있다는 의미였다.


하지만 연구진들은 문제를 발견하는 데 그치지 않고 해결책도 제시했다. DReaMAD 라는 새로운 프레임워크의 핵심은 두 가지 전략이었다.

1. 전략적 사전 지식 추출

  • 문제를 바로 풀기 시작하는 대신, 각 에이전트가 먼저 고수준 전략을 수립
  • "이 문제의 핵심은 무엇인가", "어떤 전략이 유효할 것인가"를 스스로 정리
  • 표면적인 분석을 넘어선 깊이 있는 추론 유도

2. 관점 다양화

  • 동일한 모델이라도 서로 다른 관점을 강제로 부여
  • 진정한 다양성 확보 (예: "공격적 전략" vs "수비적 전략")
  • 편향 방지와 창의적 사고 촉진

DReaMAD의 성과는 명확했다. MetaNIM Arena에서 기존 표준 프롬프트 대비 12.0% 정확도 향상, 기존 토론 시스템 대비 20.8% 승률 향상을 달성했다. 더 중요한 것은 편향이 25% 감소했다는 점이다. 또한 일반적인 수학 문제나 상식 추론 문제에서도 높은 성능을 보여 다양한 영역에 적용 가능함을 증명했다.





인사이트 및 회고

두 연구를 분석한 결과, SAR 분석 시스템에 LLM 토론을 도입해야 하는 근거와 방향을 잡을 수 있었다.

💡 DEEVO 연구는 꾸준히 고민하고 있는 "정답이 없는 문제의 품질 평가" 방안을 제시했다.

Activity Cliff 분석에서 어떤 가설이 더 타당한지 판단하기 어려웠는데, 토론을 통한 상대 평가로 이 문제를 해결할 수 있다는 것을 확인했다. 또한 프롬프트가 자동으로 진화하는 시스템을 구축하면 화학자가 수동으로 개선하지 않아도 점점 더 나은 분석이 가능해진다.

💡 DReaMAD 연구는 더욱 중요한 경고와 해결책을 동시에 제공했다.

토론 시스템을 잘못 설계하면 오히려 역효과가 날 수 있다는 경고와 함께, 관점 다양화와 사전 전략 수립이라는 구체적 해결책도 제시했다. 우리 시스템에서는 구조화학 전문가, 생체분자 상호작용 전문가, SAR 통합 전문가로 역할을 분화하고, 각각 다른 관점으로 분석하게 만들어야 한다는 설계 방향을 생각해 볼 수 있었다.

이 두 연구를 통해 가장 중요한 확신을 얻은 것은 실험적 검증의 엄밀성이었다.

  • DEEVO는 여러 벤치마크에서 일관된 성능 향상을 보였고, 특히 Elo 점수와 실제 성능의 강한 상관관계(0.87)를 통해 평가 방법의 신뢰성을 입증했다.
  • DReaMAD는 수학적으로 정답이 정해진 MetaNIM Arena에서 편향 감소와 정확도 향상을 동시에 달성했다.

이를 통해 과학적으로 검증된 방법론이라는 신뢰를 기반으로 우리 프로젝트에 적용할 방안을 고민할 수 있었다.

특히 화학 분야처럼 복잡하고 때로는 주관적 판단이 필요한 영역에서는 이런 방법론의 가치가 더욱 크다고 본다. 단일 LLM의 편향과 할루시네이션을 극복하고, 전문가 수준의 신뢰할 수 있는 가설을 생성할 수 있는 실현 가능한 방향을 잡아가는 중이다. 우리 프로젝트에 LLM 토론 시스템을 도입하는 것이 선택이 아닌 필수일 수 있겠다는 생각도 든다. 두 연구를 통해 그 구체적인 설계 방향을 명확하게 정리해 보겠다.

profile
AI에 관심을 가지고, 데이터로 가치를 만들어 나가는 과정을 기록합니다.

0개의 댓글