A Survey on Large Language Model based Autonomous Agents

Tasker_Jang·2025년 3월 8일
0

Abstract

자율 에이전트의 변화

  • 초기 연구:
    기존 연구는 제한된 지식과 고립된 환경에서 에이전트를 학습시켜, 인간의 학습 방식과 크게 다르며 인간 수준의 의사결정을 내리기 어려웠습니다.

  • LLM의 등장:
    웹상 방대한 지식을 학습한 LLM 덕분에, 에이전트가 인간 수준의 지능을 발휘할 수 있는 가능성이 열리면서, LLM 기반 자율 에이전트 연구가 급증하고 있습니다.


논문의 주요 내용

  • 통합 프레임워크 제안:
    LLM 기반 자율 에이전트의 구성 요소와 기존 연구들을 아우르는 통합 프레임워크를 제시합니다.

  • 다양한 응용 분야:
    사회과학, 자연과학, 공학 등 여러 분야에서 LLM 기반 자율 에이전트의 응용 사례를 소개합니다.

  • 평가 전략 및 미래 과제:
    자율 에이전트의 성능 평가 방법을 살펴보고, 현재의 한계와 앞으로의 연구 방향에 대해 논의합니다.


Introduction

LLM 기반 자율 에이전트: 인간 수준 지능을 향한 새로운 도약

최근 자율 에이전트 연구는 기존의 제한적 환경에서 학습한 모델들이 아닌, 방대한 웹 지식을 학습한 대규모 언어 모델(LLM)을 중심으로 재편되고 있습니다. 초기 연구들은 간단한 휴리스틱 정책에 의존했지만, 인간의 학습 방식과는 거리가 있었기에 실제 인간과 같은 의사결정을 내리기 어려웠습니다.

주요 내용 요약

  • 자율 에이전트란?
    Franklin과 Graesser(1997)가 정의한 바와 같이, 자율 에이전트는 환경을 감지하고 스스로 행동하여 미래의 환경을 변화시키는 시스템입니다. 과거 연구에서는 제한된 지식과 고립된 환경에서 학습한 에이전트를 주로 다뤘습니다.

  • LLM의 등장과 변화
    대규모 데이터와 수많은 파라미터를 기반으로 한 LLM은 인간 수준의 지능에 근접하는 성능을 보이며, 자율 에이전트 연구에 혁신을 가져왔습니다. 이를 통해 에이전트들은 다양한 상황에서 스스로 계획을 세우고, 자연어 인터페이스를 통해 인간과 소통하며, 더 유연한 의사결정을 내릴 수 있게 되었습니다.

  • 연구 동향과 프레임워크
    최근 발표된 다양한 모델들을 보면, 에이전트의 유형은 General Agent, Tool Agent, Embodied Agent 등으로 세분화되며, 각기 다른 응용 분야에 맞춰 발전하고 있습니다. 본 설문조사는 에이전트의 구성(construction), 응용(application), 평가(evaluation) 세 가지 측면에서 기존 연구들을 체계적으로 정리하여, 통합 프레임워크를 제시하고자 합니다.

  • 연구의 필요성
    다양한 분야(사회과학, 자연과학, 공학 등)에서 자율 에이전트를 어떻게 효과적으로 구성하고 활용할 수 있는지에 대한 포괄적 이해를 제공하며, 앞으로 이 분야의 발전과 혁신을 위한 방향성을 제시합니다.

LLM-based Autonomous Agent Construction

이 섹션에서는 LLM(대규모 언어 모델)을 활용한 자율 에이전트 구축의 두 가지 주요 측면, 즉 에이전트 아키텍처 설계에이전트 역량 획득에 대해 살펴봅니다.


1. 에이전트 아키텍처 설계

LLM 기반 자율 에이전트는 인간과 유사한 의사결정을 내리기 위해 단순한 질의응답(QA)을 넘어, 스스로 환경을 인지하고 학습하는 복잡한 시스템이 필요합니다. 이를 위해 에이전트 아키텍처는 크게 네 가지 핵심 모듈로 구성됩니다.

프로파일링 모듈

  • 목적: 에이전트의 역할, 성격, 사회적 관계 등 기본 정보를 설정하여 LLM의 행동을 유도합니다.
  • 프로파일 생성 전략:
    • Handcrafting: 수동으로 성격이나 역할을 지정
    • LLM-Generation: LLM을 활용해 자동으로 프로파일 생성
    • Dataset Alignment: 실제 데이터셋을 활용해 실제 인간의 특성을 반영

메모리 모듈

  • 목적: 에이전트가 환경에서 인지한 정보를 저장하고, 과거 경험을 바탕으로 미래 행동을 개선하도록 돕습니다.
  • 메모리 구조:
    • Unified Memory: 주로 단기 기억으로, 컨텍스트 창 내에 직접 포함
    • Hybrid Memory: 단기와 장기 기억을 모두 포함하여, 벡터 데이터베이스 등으로 관리
  • 메모리 형식 및 작동 방식:
    • 형식: 자연어, 임베딩, 데이터베이스, 구조화된 리스트 등
    • 작동: 읽기(최근성, 관련성, 중요도 기반), 쓰기(중복 제거 및 오버플로 관리), 그리고 반성(저수준 경험을 요약해 고차원 인사이트 도출)

플래닝 모듈

  • 목적: 복잡한 태스크를 작은 하위 태스크로 분해하고, 단계별로 계획을 세워 실행할 수 있도록 합니다.
  • 전략:
    • 피드백 없이:
      • Single-path Reasoning: Chain-of-Thought, Zero-shot-CoT 등
      • Multi-path Reasoning: Self-consistent CoT, Tree of Thoughts 등
      • 외부 플래너 활용: PDDL 변환 후 외부 플래너 사용
    • 피드백과 함께:
      • 환경, 인간, 모델 피드백을 통해 계획을 수정하고 보완하는 전략

액션 모듈

  • 목적: 플래닝 모듈에서 결정된 계획을 실제 환경에 실행 가능한 행동으로 전환합니다.
  • 구성:
    • 행동 목표: 태스크 완료, 커뮤니케이션, 탐색 등
    • 행동 생성 방식: 메모리 회상 또는 사전 생성된 계획에 따른 실행
    • 행동 공간: 외부 도구(API, 데이터베이스, 외부 모델)와 내부 LLM 지식
    • 행동 영향: 환경 변화, 에이전트 내부 상태 업데이트, 새로운 행동 유발

2. 에이전트 역량 획득

에이전트가 실제 태스크를 수행하기 위해서는 단순한 아키텍처 외에도, 태스크 특화 역량(소프트웨어 자원)이 필요합니다. 이러한 역량은 주로 두 가지 방식으로 획득할 수 있습니다.

1) Fine-tuning (미세 조정) 기반 방법

  • 방법:
    • 인간 주석 데이터: 실제 인간의 피드백이나 행동을 바탕으로 LLM을 미세 조정
    • LLM 생성 데이터: LLM을 활용해 대량의 데이터를 생성 후 학습
    • 실제 데이터셋: 웹 쇼핑, SQL, 교육 등 실제 환경에서 수집한 데이터를 이용
  • 장점: 태스크 특화 지식을 모델 파라미터에 직접 반영하여 성능을 크게 향상시킬 수 있음
  • 제한: 주로 오픈소스 LLM에 적용 가능

2) Fine-tuning 없이 역량 획득

  • 방법:
    • 프롬프트 엔지니어링: 원하는 기능이나 예시를 자연어 프롬프트에 포함시켜 LLM의 출력을 유도
    • 메커니즘 엔지니어링:
      • Trial-and-Error: 실행 후 피드백을 통해 개선
      • Crowd-sourcing: 여러 에이전트의 의견을 종합하여 개선
      • 경험 축적: 성공 사례를 메모리에 저장하여 유사 태스크에 활용
      • 자기 주도 진화: 에이전트가 스스로 목표를 설정하고 학습하며 진화
  • 장점: 미세 조정 없이도 다양한 소스(오픈 및 클로즈드 소스 LLM 모두)에서 역량을 확장할 수 있음
  • 제한: 입력 컨텍스트 창의 제약으로 태스크 정보를 너무 많이 포함하기 어렵고, 최적의 프롬프트나 메커니즘을 찾기 위한 설계 공간이 매우 큼

결론

LLM 기반 자율 에이전트 구축은 아키텍처 설계역량 획득 두 측면에서 접근할 수 있습니다.

  • 아키텍처 설계에서는 프로파일링, 메모리, 플래닝, 액션 모듈이 유기적으로 결합되어, 에이전트가 인간과 유사하게 환경을 인식하고, 계획을 세우며, 행동할 수 있도록 합니다.
  • 역량 획득에서는 미세 조정을 통해 직접 파라미터에 태스크 특화 지식을 반영하거나, 프롬프트 및 메커니즘 엔지니어링을 통해 보다 유연하게 에이전트 능력을 향상시킬 수 있습니다.

이러한 종합적인 접근법은 다양한 응용 시나리오(웹 쇼핑, 교육, 게임, 소셜 시뮬레이션 등)에서 LLM 기반 자율 에이전트가 보다 인간에 가까운 의사결정을 내리며, 복잡한 태스크를 효과적으로 수행할 수 있도록 돕습니다.

LLM-basedAutonomous Agent Application

LLM 기반 자율 에이전트는 뛰어난 언어 이해, 복잡한 문제 해결 능력, 그리고 상식 기반 판단력을 바탕으로 다양한 분야에서 혁신적인 응용 사례를 만들어내고 있습니다. 이번 섹션에서는 사회과학, 자연과학, 그리고 공학 분야에서 LLM 기반 에이전트가 어떻게 활용되고 있는지 살펴보겠습니다.


사회과학 (Social Science)

  • 심리학:

    • LLM 에이전트를 다양한 프로파일(예: 성격, 배경 등)로 설정해 심리 실험을 진행하거나, 정신 건강 지원에 활용합니다.
    • 연구 결과, 대형 모델(예: ChatGPT, GPT-4)이 인간 실험과 유사한 결과를 보여주며, 때로는 "과도한 정확성" 문제도 발견됩니다.
  • 정치·경제:

    • 정치 이념 감지, 투표 패턴 예측, 정치 연설의 구조와 설득 요소 분석 등 정치·경제 분야에서 LLM 에이전트의 활용 가능성을 탐구합니다.
  • 사회 시뮬레이션:

    • 온라인 커뮤니티나 가상 도시를 구성하여, 사회적 현상(예: 정보 확산, 감정 및 태도의 전파)을 모의실험합니다.
    • 예를 들어, Generative Agents와 AgentSims는 가상 마을에서 인간의 일상을 시뮬레이션하며, 사회 규범 개선을 위한 의사결정 지원 가능성을 보여줍니다.

자연과학 (Natural Science)

  • 문헌 및 데이터 관리:

    • 방대한 연구 문헌을 수집·정리하고, 데이터베이스와 인터넷 자료를 효율적으로 활용하여 연구 지원 역할을 수행합니다.
    • 예를 들어, ChatMOF와 ChemCrow는 텍스트 정보를 처리하고, 화합물 구조나 위험 물질을 검증하는 데 도움을 줍니다.
  • 실험 보조:

    • LLM 에이전트가 자율적으로 실험 계획을 세우고, 파이썬 코드 실행 등을 통해 실험을 수행하며 연구 과정을 자동화합니다.
  • 교육 도우미:

    • 학생들에게 실험 설계, 수학 문제 해결, 프로그래밍 교육 등에서 맞춤형 학습 지원을 제공합니다.
    • Math Agent, EduChat, FreeText 등은 교육 현장에서 이해도를 높이고 학습 효과를 극대화하는 도구로 활용됩니다.

공학 (Engineering)

  • 컴퓨터 과학 및 소프트웨어 엔지니어링:
    • 코드 생성, 디버깅, 테스트, 문서화 등 개발 전반에 걸쳐 자율 에이전트가 협업하며, ChatDev와 MetaGPT 같은 시스템이 대표적입니다.
  • 산업 자동화:
    • 생산 라인의 유연한 제어 및 최적화를 위해 디지털 트윈 시스템과 연계하여 에이전트가 작업 계획을 수립합니다.
  • 로봇 및 임베디드 AI:
    • 로봇의 이동, 물체 조작 등 실제 물리적 환경에서의 행동 계획과 실행을 돕습니다.
    • SayCan, TidyBot, DEPS 등은 다양한 로봇 제어 스킬을 학습해 실제 환경에서 효율적인 태스크 수행이 가능하도록 지원합니다.
  • 오픈 소스 프레임워크 및 도구:
    • LangChain, AutoGPT, GPT-Engineer 등 다양한 오픈 소스 프로젝트를 통해 LLM 기반 에이전트를 손쉽게 개발하고 활용할 수 있도록 생태계가 확장되고 있습니다.

LLM-based Autonomous Agent Evaluation

LLM 기반 자율 에이전트의 성능 평가 역시 에이전트 설계만큼이나 중요한 과제입니다. 평가 전략은 크게 주관적 평가객관적 평가 두 가지로 나눌 수 있으며, 각각의 방식은 에이전트의 다양한 능력을 다각도로 분석하는 데 도움을 줍니다.


주관적 평가 (Subjective Evaluation)

  • 인간 주석 (Human Annotation):

    • 인간 평가자가 에이전트가 생성한 결과물을 직접 점수화하거나 순위를 매깁니다.
    • 예를 들어, 에이전트가 25개의 질문에 대해 어떤 답변을 내놓는지 평가하여, 그 능력을 종합적으로 판단합니다.
  • 튜링 테스트 (Turing Test):

    • 평가자가 에이전트의 결과물과 인간이 생성한 결과물을 구분할 수 없는지 확인합니다.
    • 만약 평가자가 두 결과물을 구분하지 못한다면, 에이전트가 인간 수준의 성능을 발휘한다고 볼 수 있습니다.
  • 자동화된 주관 평가:

    • 최근에는 GPT와 같은 LLM 자체를 평가 도구로 활용하는 사례도 증가하고 있습니다.
    • 예를 들어, ChemCrow에서는 GPT를 통해 실험 결과와 그 과정의 정확성을 평가하고, ChatEval은 여러 에이전트가 서로 결과를 비평하는 방식으로 평가 신뢰도를 높이고 있습니다.

Remark: 주관적 평가는 인간의 기준을 직접 반영할 수 있는 장점이 있지만, 비용과 시간, 평가자 편향 등의 한계가 존재합니다.


객관적 평가 (Objective Evaluation)

객관적 평가는 구체적이고 계량화 가능한 지표를 통해 에이전트의 성능을 수치화합니다.

1. 평가 지표 (Metrics)

  • 태스크 성공 지표:

    • 에이전트가 주어진 태스크를 얼마나 성공적으로 수행하는지 측정합니다.
    • 예) 성공률, 보상/점수, 커버리지, 정확도 등
  • 인간 유사성 지표:

    • 에이전트의 행동이 인간과 얼마나 유사한지를 평가합니다.
    • 예) 일관성, 유창성, 대화의 인간 유사도, 인간 수용률 등
  • 효율성 지표:

    • 에이전트 개발 및 학습 비용, 실행 속도 등을 평가합니다.

2. 평가 프로토콜 (Protocols)

  • 실제 환경 시뮬레이션:

    • 게임, 인터랙티브 시뮬레이터 등에서 에이전트를 실제 상황처럼 동작하게 하여, 태스크 성공률 및 인간 유사성을 측정합니다.
  • 사회적 평가:

    • 에이전트 간의 상호작용이나 협력, 토론 등을 통해 사회적 지능과 팀워크, 논리적 추론 능력을 평가합니다.
  • 다중 태스크 평가 및 소프트웨어 테스트:

    • 다양한 도메인의 태스크를 수행하게 하거나, 코드 디버깅, 테스트케이스 생성 등 소프트웨어 개발 관련 작업을 수행하여 에이전트의 일반화 능력을 평가합니다.

3. 벤치마크 (Benchmarks)

  • 다양한 벤치마크 환경:
    • ALFWorld, IGLU, Minecraft 등 실제와 유사한 시뮬레이션 환경
    • AgentBench, SocKET, ToolBench, WebShop, Mobile-Env, WebArena 등 다양한 분야에 특화된 평가 프레임워크
    • 각 벤치마크는 에이전트의 특정 능력(예: 도구 활용, 사회적 상호작용, 다중 에이전트 협력 등)을 측정하는 데 초점을 맞춥니다.

Remark: 객관적 평가는 정량적 분석을 통해 에이전트의 성능을 체계적으로 비교할 수 있도록 해주지만, 모든 측면의 능력을 완벽하게 평가하기에는 한계가 있으므로 주관적 평가와 함께 활용하는 것이 이상적입니다.


결론

LLM 기반 자율 에이전트의 평가에는 주관적 평가와 객관적 평가가 상호 보완적인 역할을 합니다.

  • 주관적 평가는 인간의 직관적 판단과 경험을 반영하여 에이전트의 사용자 친화성, 인간 유사성 등을 측정하는 반면,
  • 객관적 평가는 구체적 지표와 벤치마크를 통해 에이전트의 태스크 성공률, 효율성 등을 수치화합니다.

두 접근법을 적절히 결합하면, 에이전트의 강점과 약점을 보다 명확하게 파악하고, 지속적인 개선과 혁신에 기여할 수 있습니다. 앞으로도 평가 방법론이 발전하면서, LLM 기반 자율 에이전트의 성능과 응용 가능성은 더욱 확대될 것으로 기대됩니다.

Challenges

LLM 기반 자율 에이전트는 놀라운 성과를 내고 있지만, 아직 해결해야 할 여러 도전 과제들이 남아 있습니다. 이번 섹션에서는 그 주요 도전 과제들을 살펴봅니다.


1. 역할 수행 능력 (Role-playing Capability)

  • 문제점:
    에이전트는 프로그램 코더, 연구원, 화학자 등 구체적인 역할을 수행해야 하는데, LLM은 웹 데이터를 중심으로 학습되기 때문에 드물거나 새롭게 등장하는 역할을 정확하게 시뮬레이션하기 어려울 수 있습니다. 또한, 인간의 인지 심리적 특성을 제대로 반영하지 못해 대화 중 자각(self-awareness)이 부족할 수 있습니다.
  • 해결 방안:
    • 미세 조정(fine-tuning)이나 맞춤형 프롬프트/아키텍처 설계를 통해 개선할 수 있으나, 이 과정에서 일반적인 역할에 대한 성능 저하가 발생할 위험이 있습니다.

2. 일반화된 인간 정렬 (Generalized Human Alignment)

  • 문제점:
    대부분의 LLM은 올바른 인간 가치를 반영하도록 정렬되어 있지만, 현실 사회를 시뮬레이션할 때는 부정적 특성까지 포함해 다양한 인간 특성을 사실적으로 재현할 필요가 있습니다.
  • 해결 방안:
    • 다양한 응용 목적에 맞춰 모델을 ‘재정렬’할 수 있는 프롬프트 전략이 필요합니다.

3. 프롬프트 견고성 (Prompt Robustness)

  • 문제점:
    에이전트 아키텍처는 메모리, 플래닝 등 여러 모듈이 결합되어 복잡한 프롬프트 체계를 필요로 합니다. 이때, 미세한 프롬프트 변화가 결과에 큰 영향을 미쳐 일관된 작동을 보장하기 어려워집니다.
  • 해결 방안:
    • 필수 프롬프트 요소를 수동으로 조정하거나, GPT와 같은 LLM을 활용해 자동으로 견고한 프롬프트를 생성하는 방법 등이 제안됩니다.

4. 환각 (Hallucination)

  • 문제점:
    LLM은 높은 신뢰도로 잘못된 정보를 생성하는 '환각' 문제를 안고 있습니다. 이는 코드 생성, 보안, 윤리 문제 등에서 심각한 결과를 초래할 수 있습니다.
  • 해결 방안:
    • 인간의 피드백을 직접 반영해 반복적인 수정 과정을 도입하는 방법이 효과적입니다.

5. 지식 한계 (Knowledge Boundary)

  • 문제점:
    현실적인 시뮬레이션에서는 에이전트가 인간처럼 제한된 지식을 가져야 하지만, LLM은 방대한 웹 지식을 기반으로 학습되어 실제 인간보다 훨씬 많은 정보를 보유합니다.
  • 해결 방안:
    • 에이전트가 사용자에게 알려지지 않은 정보를 활용하지 않도록 제약을 두는 전략이 필요합니다.

6. 효율성 (Efficiency)

  • 문제점:
    LLM의 자동회귀(autoregressive) 구조로 인해 추론 속도가 느려, 에이전트가 매 행동마다 여러 번 LLM에 질의해야 하는 상황에서는 전체 실행 속도가 크게 저하됩니다.
  • 해결 방안:
    • 효율성을 높이기 위한 하드웨어 최적화, 경량화 모델 사용, 캐싱 전략 등의 개선이 요구됩니다.

이처럼 LLM 기반 자율 에이전트는 다양한 응용 분야에서 큰 잠재력을 보이고 있지만, 역할 수행, 정렬, 프롬프트 견고성, 환각, 지식 한계, 그리고 효율성과 관련된 도전 과제를 극복하는 것이 앞으로의 발전을 위해 매우 중요합니다.

profile
터널을 지나고 있을 뿐, 길은 여전히 열려 있다.

0개의 댓글

관련 채용 정보