Generative Agents: Interactive Simulacra of Human Behavior

Tasker_Jang·2025년 3월 8일

ABSTRACT

최근 연구에서는 대형 언어 모델(LLM)을 기반으로 한 Generative Agents라는 새로운 개념이 주목받고 있습니다. 이들은 단순한 텍스트 생성기를 넘어, 실제 인간처럼 행동하고 상호작용할 수 있는 소프트웨어 에이전트로, 아래와 같은 특징을 지니고 있습니다.

주요 특징

일상 생활의 재현:
에이전트들은 아침에 일어나 아침 식사를 준비하고, 출근하는 등 일상적인 행동을 스스로 수행합니다. 뿐만 아니라, 예술가처럼 그림을 그리거나, 서로 대화를 나누며 의견을 형성하고 과거의 기억을 회상하는 등 인간다운 행동을 모사합니다.
기억과 반성의 체계:
이 시스템은 대형 언어 모델에 기반해 에이전트의 모든 경험을 자연어 형태로 기록합니다. 이후, 그 기억들을 종합하여 높은 수준의 반성(reflection)을 생성하고, 이를 통해 앞으로의 행동을 계획합니다.
상호작용 환경 구성:
연구진은 The Sims와 유사한 인터랙티브 샌드박스 환경을 구현해, 25명의 에이전트가 자연어로 상호작용할 수 있도록 했습니다. 이를 통해, 단순한 개인의 행동 뿐만 아니라 에이전트들 간의 사회적 상호작용 및 emergent behavior도 확인할 수 있었습니다.
자율적인 목표 달성:
단 하나의 사용자가 ‘발렌타인 데이 파티’를 열고 싶다는 아이디어만 제공해도, 에이전트들은 자율적으로 초대장을 보내고, 데이트를 제안하며, 파티에 맞춰 모두가 모일 수 있도록 협력하는 등, 목표 지향적인 행동을 펼칩니다.

구성 요소의 중요성

연구 결과에 따르면, 관찰(observation), 계획(planning), 그리고 반성(reflection)의 각 요소가 에이전트의 행동 신뢰도를 높이는 데 핵심적인 역할을 합니다. 이 세 가지 구성 요소를 통해 에이전트는 자신의 경험을 효과적으로 기억하고, 이를 바탕으로 미래의 행동을 예측하고 계획할 수 있습니다.

결론

Generative Agents는 단순한 텍스트 생성 모델을 넘어, 신뢰할 수 있는 인간 행동의 시뮬라크라로 발전하고 있습니다. 이 기술은 몰입형 환경, 대인 커뮤니케이션 연습 공간, 그리고 프로토타이핑 도구 등 다양한 인터랙티브 애플리케이션에 혁신적인 가능성을 제공합니다. 앞으로 이러한 연구들이 더욱 발전하면서, 인간과 같은 자율적이고 상호작용하는 에이전트의 시대가 열릴 것으로 기대됩니다.

Introduction

최근 몇십 년간, 연구자들과 실무자들은 인간 행동을 사실적으로 모방하는 인공지능 에이전트를 꿈꿔왔습니다. 우리는 어떻게 인터랙티브한 가상 사회에서 인간처럼 행동하는 에이전트를 구현할 수 있는지 살펴봅니다.

인간 행동을 모사하는 인공지능 에이전트란?

과거의 비전과 현재의 발전:
The Sims와 같은 샌드박스 게임, 가상 환경, 사회적 실험 등 오랜 시간 동안, 인간처럼 반응하고 기억하며 계획하는 에이전트를 구현하려는 시도가 이어졌습니다.
현실적인 상호작용:
Generative Agents는 단순히 사전에 정해진 스크립트를 따르는 캐릭터가 아니라, 스스로 과거 경험을 기억하고 반성하며, 현재 상황에 맞춰 계획을 수정하고 행동하는 진짜 같은 캐릭터입니다.

에이전트 아키텍처의 핵심 구성 요소

메모리 스트림 (Memory Stream):
- 에이전트의 모든 경험을 자연어로 기록하는 장기 기억 모듈입니다.
- 과거의 상호작용, 사건, 감정을 기록해두어 언제든지 필요한 정보를 불러올 수 있습니다.
반성 (Reflection):
- 기록된 메모리를 종합해 높은 수준의 인사이트로 전환합니다.
- 이를 통해 에이전트는 자신과 타인의 행동을 이해하고, 미래의 계획에 반영할 수 있습니다.
계획 (Planning):
- 반성을 바탕으로 현재 환경과 상황에 맞는 행동 계획을 수립합니다.
- 단순한 행동 지침에서부터 복잡한 사회적 상호작용까지, 다양한 목표를 수행할 수 있도록 돕습니다.

이 세 가지 구성 요소가 상호작용하며 에이전트의 일관된 행동을 만들어내고, 에이전트들은 이를 바탕으로 서로 소통하고 사회적 네트워크를 형성합니다.

실제 구현과 평가

시뮬레이션 환경:
연구진은 ChatGPT와 같은 대형 언어 모델을 기반으로, 약 25명의 에이전트가 상호작용하는 가상 마을을 구성했습니다.
예를 들어, 사용자가 단 한 명의 에이전트에게 발렌타인 데이 파티를 열고 싶다고 말하면, 그 에이전트가 시작점이 되어 다른 에이전트에게 초대장을 전달하고, 데이트를 제안하며 파티를 준비하는 등 자발적인 협력이 이루어집니다.
평가 방법:
- 통제 평가: 각 에이전트가 개별적으로 얼마나 사실적이고 일관된 행동을 하는지 인터뷰 형식으로 평가하였습니다.
- 종단 평가: 에이전트들이 오랜 시간 동안 상호작용하면서 나타나는 사회적 역학과 안정성을 관찰했습니다.

이러한 평가 결과, 에이전트 아키텍처의 각 요소—메모리, 반성, 계획—가 실제 에이전트의 신뢰성과 일관성을 높이는 데 중요한 역할을 한다는 것이 입증되었습니다.

이 섹션에서는 인간-AI 상호작용과 믿을 만한 에이전트(대리자) 구축에 관한 지난 연구들을 살펴보고, 대형 언어 모델(LLM)이 이 분야에 어떤 새로운 가능성을 열어주는지 논의합니다.

1. 인간-AI 상호작용 (Human-AI Interaction)

인터랙티브 시스템 발전:
초기에는 비전문가도 손쉽게 분류기를 학습할 수 있도록 하는 인터랙티브 머신러닝(예: Crayons)부터 시작해, 사용자가 예제나 시연을 통해 모델의 행동을 지정할 수 있는 다양한 방법들이 제안되었습니다.
자연어 기반 상호작용:
SHRDLU, ELIZA와 같은 초기 시스템이 자연어 인터페이스의 기회를 보여주었으며, 이후 자연어를 통한 상호작용이 사진, 코드 편집 등 여러 응용 분야에서 사용되고 있습니다.
에이전트와의 상호작용:
최근 연구들은 인간처럼 행동하는 에이전트를 통해 사용자와의 상호작용을 강화하려는 방향으로 발전해 왔으며, 이는 기존의 인지 모델이나 프로토타이핑 도구에 대한 재고를 불러일으키고 있습니다.

2. 인간 행동의 믿을 만한 대리자 (Believable Proxies of Human Behavior)

역사적 접근:
초기 연구에서는 디즈니 영화의 캐릭터처럼 생명력이 느껴지는 에이전트를 만들기 위해, 규칙 기반 시스템(예: 유한 상태 기계, 행동 트리)과 초기 인지 아키텍처(SOAR, ACT-R 등)를 사용했습니다.
게임과 시뮬레이션:
Mass Effect나 The Sims 같은 게임에서 NPC(Non-Player Characters)의 행동을 설계함으로써, 플레이어와의 자연스러운 상호작용과 emergent narrative를 이끌어내려는 노력이 이루어졌습니다.
현대적 도전:
강화 학습과 같은 학습 기반 접근법은 수동적 스크립팅의 한계를 극복했지만, 주로 명확한 보상 체계가 있는 경쟁 환경에 국한되어 있어, 개방형 세계에서의 믿을 만한 행동을 생성하는 데는 여전히 어려움이 남아 있습니다.

3. 대형 언어 모델과 인간 행동 (Large Language Models and Human Behavior)

풍부한 인간 행동 정보:
대형 언어 모델은 방대한 텍스트 데이터 속에 내재된 인간 행동의 다양한 양상을 학습합니다. 적절한 프롬프트를 통해, LLM은 특정 상황에 맞는 인간다운 반응을 생성할 수 있습니다.
제한점과 새로운 접근법:
기존의 몇 샷(few-shot)이나 체인 오브 쓰ought(chain-of-thought) 프롬프트 방식은 현재의 환경에 한정된 정보를 활용하는 데 그칩니다. 하지만 믿을 만한 에이전트는 과거 경험이라는 방대한 맥락도 함께 반영해야 합니다.
동적 메모리와 정보 검색:
이를 해결하기 위해, 최근 연구들은 고정된 프롬프트를 넘어서, 에이전트의 과거 경험을 동적으로 업데이트하고 현재 상황 및 계획과 혼합하는 새로운 아키텍처를 제안하고 있습니다.

이처럼, 관련 연구들은 인간 행동을 모사하는 믿을 만한 에이전트를 만들기 위해 다양한 접근법을 시도해왔으며, 대형 언어 모델의 등장으로 그 가능성이 한층 넓어졌음을 보여줍니다. 앞으로 이 연구들이 더욱 발전해, 보다 정교하고 인간다운 인터랙티브 시스템이 등장할 것으로 기대됩니다.

GENERATIVE AGENT BEHAVIOR AND INTERACTION

Generative Agents는 The Sims와 같은 샌드박스 게임에서 영감을 받은 가상 소도시, 스몰빌에 살고 있는 25명의 개성 있는 에이전트들입니다. 이 에이전트들은 단순한 스프라이트 아바타로 표현되며, 각각의 초기 메모리(자연어로 작성된 한 단락의 소개글)를 통해 정체성과 관계, 직업 등 다양한 정보를 가지고 있습니다.

에이전트 아바타와 의사소통

개인 정보와 초기 메모리:
예를 들어, “John Lin”이라는 에이전트는 약국 상점 주인으로서 가족, 이웃, 동료와의 관계를 상세하게 기록한 메모리를 갖고 시작합니다. 이 초기 메모리는 에이전트의 행동과 상호작용에 큰 영향을 미칩니다.
행동 표현:
에이전트들은 매 시간마다 “Isabella Rodriguez가 일기를 쓰고 있다”, “이메일을 확인하고 있다”와 같은 자연어 문장을 출력합니다. 이 문장은 스몰빌 내에서 구체적인 행동으로 전환되어, 아바타 위에 이모지로 표시됩니다.
예를 들어, “일기를 쓰고 있다”는 행동이 이모지로 변환되어 사용자에게 직관적으로 전달됩니다.
상호 대화:
에이전트들은 자연어로 서로 대화하며, 예를 들어 Isabella와 Tom이 다가오는 선거에 대해 의견을 나누는 등 현실적인 대화가 이루어집니다.
이처럼 에이전트들은 서로 인근에 있는 다른 에이전트들을 인지하고, 우연히 마주치거나 의도적으로 대화를 시작합니다.

사용자와의 상호작용

사용자 컨트롤:
사용자는 자연어로 자신의 페르소나를 지정하고 에이전트와 소통할 수 있습니다. 예를 들어, 사용자가 “뉴스 리포터”라는 페르소나로 질문을 하면, 에이전트는 이에 맞춰 대답합니다.
또한, 사용자가 특정 에이전트의 “내면의 목소리” 역할을 하여 직접 명령을 내릴 수도 있습니다. 예를 들어, John 에이전트에게 “Sam에 맞서 선거에 출마하라”는 명령을 내리면, John은 실제로 출마 의사를 밝히고 가족과 상의하게 됩니다.

환경과의 상호작용

스몰빌의 구성:
스몰빌은 카페, 바, 공원, 학교, 주택 등 다양한 지역과 그 안의 오브젝트(예: 주방의 스토브, 침실의 침대)로 구성되어 있습니다.
에이전트들은 게임처럼 지도 위에서 건물에 출입하고, 이동 경로를 계산하며, 다른 에이전트와 상호작용합니다.
환경 상태 변경:
사용자는 에이전트뿐만 아니라, 환경 오브젝트의 상태도 자연어 명령으로 변경할 수 있습니다.
예를 들어, “<Isabella의 아파트: 주방: 스토브>가 불타고 있다”와 같이 명령하면, Isabella는 그 상태를 인지하고 스토브를 끄기 위해 행동합니다.

하루 일과와 사회적 상호작용

하루 일과:
예시로, John Lin의 아침 일과를 보면, 그는 아침 7시에 일어나 양치, 샤워, 아침 식사 및 가족과 간단한 대화를 나눈 후, 출근 준비를 합니다.
그의 가족 구성원들도 각자의 일정에 따라 행동하며, 간단한 인사를 주고받는 등 자연스러운 일상이 그려집니다.
발생하는 사회적 행동:
- 정보 확산: 에이전트들이 대화를 나누면서 서로의 정보를 공유합니다. 예를 들어, Sam이 선거 출마 소식을 다른 에이전트에게 전파하면, 그 정보가 점차 마을 전체로 확산됩니다.
- 관계 형성: 처음 만난 에이전트들이 인사를 나누고, 이후 이전 대화를 기억하며 친분을 쌓아갑니다.
- 협력과 조율: 한 에이전트가 발렌타인 데이 파티를 열겠다는 의도를 갖게 되면, Isabella는 친구와 고객들에게 초대장을 전달하고, 카페를 장식하며, 다른 에이전트들과 협력해 파티를 성공적으로 개최합니다.

에이전트 아키텍처

메모리 스트림:
에이전트는 자신의 모든 경험을 자연어로 기록한 메모리 스트림을 갖고 있습니다. 이 기록들은 나중에 중요한 정보를 검색하거나, 행동 계획을 세우는 데 사용됩니다.
동적 메모리 검색 및 계획:
에이전트는 주변 환경과 과거 경험에서 관련 정보를 동적으로 검색해, 현재 상황에 맞는 행동을 계획합니다. 이때, 검색된 메모리는 다시 메모리 스트림에 반영되어 미래 행동에 영향을 줍니다.

이와 같이, 스몰빌 내에서 Generative Agents는 개별 에이전트의 행동, 상호 대화, 환경 상호작용을 통해 믿을 만한 인간 행동을 재현합니다. 이러한 시스템은 단순한 게임 캐릭터를 넘어, 사용자와의 깊이 있는 상호작용과 사회적 동역학을 보여주며, 향후 더욱 복잡한 가상 사회 구축에 중요한 밑거름이 될 것입니다.

GENERATIVE AGENT ARCHITECTURE

Generative Agents는 열린 세계에서 에이전트들이 서로 상호작용하고, 환경의 변화에 반응하며, 장기적인 행동 일관성을 유지하도록 설계된 프레임워크입니다. 이 아키텍처는 대형 언어 모델(LLM)의 강력한 텍스트 생성 능력을 기반으로, 에이전트가 과거 경험을 기억하고 이를 바탕으로 계획을 세우며 반성(reflection)하는 메커니즘을 결합합니다.

1. 핵심 구성 요소

1.1 메모리 스트림과 검색 (Memory & Retrieval)

메모리 스트림:
에이전트는 자신의 모든 경험을 자연어로 기록한 ‘메모리 객체’ 목록을 유지합니다. 각 메모리는 생성 시각과 마지막 접근 시각, 그리고 자연어 설명으로 구성됩니다.
검색 메커니즘:
에이전트의 현재 상황에 맞춰 관련 메모리를 검색하는데, 이를 위해 세 가지 기준이 사용됩니다.
- Recency (최신성): 최근에 접근한 메모리에 높은 가중치를 부여합니다.
- Importance (중요도): 일상적 사건과 달리 에이전트에게 큰 영향을 준 사건에 높은 점수를 부여합니다.
- Relevance (관련성): 현재 상황과 얼마나 관련 있는지를 평가합니다.
  이 세 요소를 조합해 메모리의 최종 점수를 산출하고, 상위 점수의 메모리들을 LLM의 프롬프트로 전달합니다.

1.2 반성 (Reflection)

목적:
단순 관찰 기억만으로는 깊은 추론이나 일반화가 어렵습니다. 반성을 통해 에이전트는 자신의 관찰들을 종합해 높은 수준의 인사이트를 도출합니다.
과정:
- 에이전트는 최근 메모리들을 바탕으로 “무엇을 반성할 것인가?”에 대한 질문들을 생성합니다.
- 예를 들어, Klaus가 연구에 몰두하는 모습을 관찰한 후, “Klaus는 무엇에 열정을 느끼는가?”와 같은 질문을 통해 반성을 시작합니다.
- 생성된 질문을 다시 검색해 관련 메모리를 모으고, LLM을 통해 인사이트를 추출합니다. 이 인사이트는 다시 메모리 스트림에 저장되어 미래의 행동 계획에 반영됩니다.

1.3 계획 및 반응 (Planning and Reacting)

장기 계획:
에이전트는 자신의 목표와 환경을 고려해 하루 또는 일정 기간 동안의 행동 계획을 세웁니다.
- 초기 계획은 에이전트의 요약 정보와 전날의 경험을 바탕으로 대략적인 일정(예: 오전 8시 기상, 12시 점심 등)을 생성합니다.
- 이후 이 계획은 재귀적으로 세부 행동(예: 1시간 단위, 혹은 5–15분 단위)으로 분해되어 구체적인 일정으로 발전됩니다.
실시간 반응:
에이전트는 매 시간마다 주변 상황을 관찰하고, 그 관찰 결과를 메모리에 저장합니다.
- 예를 들어, John이 집에서 Eddy가 산책하는 모습을 관찰하면, 해당 정보가 메모리로 기록되고, John은 이를 바탕으로 “Eddy에게 작곡 프로젝트에 대해 물어보자”는 반응을 계획합니다.
- 이때, 기존 계획은 상황에 맞게 수정되며, 에이전트 간의 대화 역시 메모리와 계획을 기반으로 생성됩니다.

2. 전체 아키텍처의 특징

자연어 기반 처리:
모든 구성 요소(메모리, 반성, 계획)는 자연어로 기록되고 처리되므로, 대형 언어 모델의 강력한 텍스트 이해 및 생성 능력을 효과적으로 활용할 수 있습니다.
동적 업데이트:
에이전트는 계속해서 새로운 경험을 메모리에 기록하고, 이를 바탕으로 반성과 계획을 재구성함으로써, 변화하는 환경에 유연하게 대응합니다.
장기적 일관성 유지:
단순히 현재 상황에만 반응하는 것이 아니라, 과거 경험과 계획을 통합해 장기적으로 일관된 행동을 유지하는 것이 목표입니다.

3. 현재 구현과 미래 전망

구현 예시:
현재 시스템은 gpt3.5-turbo 기반의 ChatGPT를 사용해 구현되었으며, 메모리, 반성, 계획의 기본적인 틀을 갖추고 있습니다.
향후 개선:
최신 LLM(GPT-4 등)의 등장과 함께, 더 정교하고 확장된 표현력과 성능을 갖춘 시스템으로 발전할 가능성이 큽니다.
또한, 보다 효과적인 메모리 검색 및 계획 수정 메커니즘이 개발된다면, 에이전트들의 행동 신뢰도와 현실감은 더욱 향상될 것입니다.

SANDBOX ENVIRONMENT IMPLEMENTATION

Generative Agents가 실제처럼 상호작용하는 가상 환경, 스몰빌(Smallville)은 Phaser 웹 게임 프레임워크를 기반으로 만들어졌습니다. 이 환경에서는 에이전트 아바타, 환경 지도, 충돌 지도 등이 스프라이트 형식으로 구현되어 있으며, 별도의 서버가 전체 게임 상태를 JSON 데이터로 관리합니다.

1. 샌드박스 서버와 에이전트 상호작용

상태 관리:
서버는 각 에이전트의 현재 위치, 행동 설명, 상호작용 중인 오브젝트 등의 정보를 JSON으로 저장합니다.
매 시간마다 서버는 에이전트들이 보낸 업데이트를 파싱하여 에이전트 위치를 이동시키고, 예를 들어 “Hobbs Cafe에서 에스프레소 만들기”와 같이 에이전트의 행동에 따라 커피 머신 상태를 “idle”에서 “brewing coffee”로 변경합니다.
정보 전달:
또한, 서버는 각 에이전트가 시각적으로 인지할 수 있는 범위 내의 다른 에이전트와 오브젝트 정보를 전달하여, 에이전트가 주변 상황에 맞게 반응할 수 있도록 돕습니다.
초기화 및 진화:
사용자는 John Lin과 같은 에이전트에 대한 간단한 자연어 설명을 통해 초기 메모리를 설정합니다. 이 메모리들은 에이전트의 초기 행동을 결정하고, 시간이 지나면서 더 많은 경험이 축적되어 에이전트의 행동이 점차 진화합니다.

2. 구조화된 세계와 자연어의 상호 변환

Generative Agents는 모든 추론을 자연어로 처리합니다. 이를 위해, 스몰빌 내의 모든 지역과 오브젝트는 트리 구조로 표현됩니다.

환경 트리:
“부엌 안의 스토브”와 같이, 상위-하위 관계를 자연어로 “부엌에 스토브가 있다”라고 표현합니다.
에이전트는 자신이 방문한 공간의 서브트리를 개별적으로 구축하며, 이를 기반으로 주변 환경을 인지하고 업데이트합니다.
행동 위치 결정:
에이전트가 예를 들어 “작업 공간 주변을 산책”해야 할 때, 자신의 환경 트리를 탐색하여 현재 활동에 가장 적합한 지역(예: “The Lin 가족의 집: 정원”)을 선택합니다.
이후, 전통적인 경로 알고리즘을 통해 해당 위치로 이동하도록 애니메이션을 실행합니다.
오브젝트 상태 업데이트:
에이전트가 특정 오브젝트에 대해 행동(예: “에스프레소 만들기”)을 수행하면, LLM에 질의하여 해당 오브젝트의 상태가 “꺼짐”에서 “커피를 추출 중”으로 변경되는 과정을 결정합니다.

CONTROLLED EVALUATION

Generative Agents가 실제처럼 믿을 만한 행동을 구현하는지를 평가하기 위해, 연구진은 두 단계의 평가를 진행했습니다. 이 중 첫 번째 단계에서는 각 에이전트가 개별적으로 얼마나 일관되고 자연스러운 반응을 생성하는지, 그리고 그들의 기억, 계획, 반응, 반성 능력이 얼마나 잘 작동하는지를 집중적으로 살펴보았습니다.

평가 절차

자연어 인터뷰를 통한 평가:
에이전트에게 “자기 소개”, “평일 스케줄 소개”, “기억에서 특정 사건 회상”, “미리 계획한 미래 행동”, “예상치 못한 상황에 대한 반응”, 그리고 “타인 및 자신에 대한 심층 반성”과 같은 질문을 던졌습니다.
핵심 평가 항목:
평가 질문은 크게 다섯 영역으로 구분되었습니다.
- 자기 인식: 에이전트가 자신을 어떻게 이해하는지
- 기억: 과거 경험과 대화 기록을 얼마나 정확히 회상하는지
- 계획: 장기적인 행동 계획을 어떻게 수립하는지
- 반응: 예상치 못한 상황에 대해 어떻게 대응하는지
- 반성: 깊은 인사이트를 바탕으로 스스로를 돌아보고 개선하는 능력
실험 디자인:
100명의 평가자가 에이전트의 인터뷰 답변을 보고, 다섯 가지 조건(전체 아키텍처, 반성 미포함, 반성+계획 미포함, 그리고 인간이 작성한 응답 등)을 순위로 평가했습니다.

조건 및 비교

아키텍처 조건:
연구진은 전체 아키텍처(메모리, 반성, 계획 모두 포함)와 세 가지의 ablation 조건(예: 반성만 제외, 반성 및 계획 제외, 메모리·반성·계획 모두 제외)을 비교했습니다.
인간 작성 응답:
인간 크라우드워커가 작성한 응답도 비교 대상으로 포함되어, 기술의 기본 수준이 인간 수준의 행동과 얼마나 차이가 나는지 확인했습니다.

평가 분석 및 결과

평가 방법:
각 조건에 대해 TrueSkill 시스템과 비모수 검정(Kruskal-Wallis, Dunn 후속 검정)을 사용해 통계적 유의성을 분석했습니다.
주요 결과:
- 전체 아키텍처: 가장 믿을 만한 행동을 보여주었으며, TrueSkill 평균 점수는 29.89(표준편차 0.72)로 나타났습니다.
- ablation 조건: 구성 요소(반성, 계획, 메모리)의 제거에 따라 성능이 점차 저하되었습니다. 예를 들어, 반성이 없는 조건은 평균 점수가 26.88, 반성 및 계획이 없는 조건은 25.64로 나타났습니다.
- 인간 크라우드워커: 인간 작성 응답은 22.95로, ablation 조건과 비교했을 때 가장 낮은 성능을 보였습니다.
- 효과 크기 측면에서, 전체 아키텍처와 과거 방식(메모리·반성·계획 모두 제거) 사이의 표준화 효과 크기는 약 8.16로, 매우 큰 차이를 보였습니다.
에이전트의 기억과 반성:
에이전트들은 자신의 경험을 잘 회상할 수 있었지만, 때때로 불완전하거나 약간의 과장이 포함된 기억을 회상했습니다.
또한, 반성 메커니즘이 포함된 경우, 에이전트는 보다 심도 있는 인사이트를 바탕으로 행동 결정을 내리는 경향이 있었습니다. 예를 들어, Maria는 반성이 없는 경우 불확실하게 답변했지만, 반성 메모리에 접근할 때는 보다 구체적이고 자신감 있는 답변을 제공했습니다.

END-TO-END EVALUATION

Generative Agents가 소규모 가상 마을 Smallville에서 25명의 에이전트로 구성된 커뮤니티 내에서 어떻게 상호작용하며, 어떤 사회적 현상이 emergent(자발적으로 발생)하는지에 대해 두 게임일 동안 평가한 결과를 살펴봅니다.

1. emergent 사회적 행동

정보 확산 (Information Diffusion)

테스트 정보:
- Sam의 시장 시장장 출마 소식과 Isabella의 발렌타인 데이 파티 정보가 초기에는 각각 한 명의 에이전트에게만 알려졌습니다.
평가 결과:
- 두 게임일 후, Sam의 출마 정보는 4%에서 32%로, Isabella의 파티 정보는 4%에서 52%로 확산되었습니다.
검증:
- 각 에이전트의 기억 기록을 통해 해당 정보가 실제 대화나 상호작용에서 회상된 사실임을 확인했습니다.

관계 형성 (Relationship Formation)

방법:
- 에이전트들 서로에 대해 “<이름>을 알고 있습니까?”라는 질문을 통해 상호 인지 여부를 파악하고, 이를 기반으로 undirected graph(무방향 그래프)를 구성했습니다.
평가 결과:
- 시뮬레이션 전후 네트워크 밀도가 0.167에서 0.74로 증가하는 등, 에이전트들이 새로운 관계를 형성한 것으로 나타났습니다.

에이전트 간 협력 (Agent Coordination)

사례:
- Isabella가 발렌타인 데이 파티를 조직할 때, 초대장을 전파하고 파티 준비를 위해 협력하는 과정이 관찰되었습니다.
평가 결과:
- 파티에 초대받은 12명의 에이전트 중 5명이 실제로 파티에 참석했습니다.
추가 인터뷰:
- 참석하지 않은 일부 에이전트는 일정 충돌이나 개인 일정 때문에 참석하지 못했다고 응답했습니다.

2. 경계 조건 및 오류 (Boundaries and Errors)

메모리 통합의 어려움

문제점:
- 에이전트가 점점 더 많은 메모리를 통합하면서, 가장 관련성 높은 정보를 정확히 검색하거나 올바른 위치를 선택하는 데 어려움이 발생했습니다.
예시:
- 점심 식사를 위해 카페를 선택했다가, 주변에 새로 알게 된 바를 선택하는 등의 행동 변화가 관찰되었습니다.

물리적 규범 인식 오류

문제점:
- 일부 에이전트는 특정 장소의 물리적 규범(예: 대학 기숙사의 화장실은 한 사람만 사용 가능함, 상점이 오후 5시에 문을 닫음)을 제대로 인식하지 못해 부적절한 행동을 보였습니다.

과도한 정중함 및 협력성

문제점:
- 모델의 instruction tuning 영향으로, 에이전트 간의 대화가 지나치게 정중하거나 서로의 의견에 쉽게 동조하는 경향이 있었습니다.
예시:
- Isabella는 자신과 맞지 않는 제안을 받아들이며, 타인의 관심사가 자신의 관심사에 영향을 주는 모습을 보였습니다.

DISCUSSION

Generative Agents는 단순한 샌드박스 데모를 넘어, 인간 행동의 복잡성을 반영하는 다양한 응용 분야에 활용될 수 있는 잠재력을 지니고 있습니다.

1. 응용 가능성

가상 및 현실 세계에서의 활용:
Generative Agents는 온라인 포럼, 가상현실 메타버스, 또는 다중 모달 모델과 결합된 사회 로봇 등 다양한 환경에 배치될 수 있습니다.
예를 들어, 에이전트를 활용해 실제 인간의 행동 패턴과 선호도를 모사함으로써 보다 개인화된 사용자 경험을 제공할 수 있습니다.
인간 중심 디자인 지원:
전통적인 인지 모델(GOMS, KLM 등)과 유사하게, Generative Agents는 사용자의 일상 패턴과 상호작용을 반영하여 디자인 과정에서 인간의 행동을 예측하고 프로토타입을 만드는 데 도움을 줄 수 있습니다.
이처럼 사용자를 대신하는 에이전트가 개인의 생활 패턴을 학습함으로써, 더욱 효율적이고 개인화된 기술 경험을 제공할 수 있습니다.

2. 향후 연구와 한계

아키텍처 개선 및 비용 문제:
현재 제시된 에이전트 아키텍처는 초기 구현 단계에 머물러 있으며, 특히 정보 검색 모듈, 장기 기억 관리, 그리고 계획 및 반성 메커니즘 개선이 필요합니다.
또한, 25명의 에이전트를 2일간 시뮬레이션하는 데 드는 비용과 시간이 상당하여, 실시간 상호작용을 위해서는 에이전트 병렬 처리나 Generative Agents 전용 LLM 개발 등 효율성 향상이 요구됩니다.
평가의 한계:
이번 연구는 비교적 짧은 시간 동안의 시뮬레이션과 크라우드워커 기반의 인간 응답 조건을 사용했으나, 향후에는 장기간 시뮬레이션과 다양한 모델 및 하이퍼파라미터 조정을 통해 보다 정교한 벤치마크를 마련해야 합니다.
견고성 문제:
에이전트는 프롬프트 및 메모리 해킹, 환각(hallucination) 등의 문제에 취약할 수 있습니다. 따라서, 이러한 견고성 문제를 체계적으로 테스트하고, LLM이 이러한 공격에 강인해질 수 있도록 하는 연구가 필요합니다.
편향 및 데이터 제한:
Generative Agents는 기반이 되는 대형 언어 모델의 한계를 그대로 물려받기 때문에, 편향된 행동이나 소수자 집단에 대한 부적절한 대응이 발생할 수 있습니다. 이를 해결하기 위해서는 모델의 가치 정렬(value alignment)과 데이터 확장이 필수적입니다.

3. 윤리 및 사회적 영향

Parasocial 관계 형성:
사용자가 에이전트를 실제 인간처럼 과도하게 의인화할 위험이 있습니다. 이로 인해 에이전트와 정서적 유대가 형성되어, 과도한 의존이나 부적절한 관계가 발생할 수 있습니다.
→ 해결 방안: 에이전트는 자신이 컴퓨팅 시스템임을 명확히 공개하고, 가치 정렬을 통해 부적절한 행동을 방지해야 합니다.
오류로 인한 피해:
에이전트가 잘못된 추론을 하거나 행동할 경우, 사용자는 불편을 겪거나 심각한 피해로 이어질 수 있습니다.
→ 해결 방안: 특히 생활에 밀접한 응용 분야에서는 인간-AI 설계의 최선의 실천 사례를 따르고, 에러가 사용자 경험에 미치는 영향을 최소화해야 합니다.
오용 위험:
Generative Agents는 딥페이크, 잘못된 정보 생성, 맞춤형 설득 등 기존의 생성형 AI 문제를 악화시킬 수 있습니다.
→ 해결 방안: 플랫폼에서는 입력 및 출력의 감사 로그를 유지하여, 악의적인 사용을 탐지하고 개입할 수 있는 시스템을 마련해야 합니다.
과도한 의존:
에이전트가 인간 디자인 프로세스를 대체하게 되면, 실제 인간의 역할이 축소될 위험이 있습니다.
→ 해결 방안: Generative Agents는 초기 아이디어 프로토타이핑이나 위험 부담이 큰 실험적 연구에 활용되며, 최종 결정이나 설계에서는 여전히 인간의 참여가 필수적입니다.

CONCLUSION

이 연구는 인간 행동을 모사하는 인터랙티브 컴퓨팅 에이전트, 즉 Generative Agents를 소개합니다. 논문에서는 각 에이전트가 자신의 경험을 포괄적으로 기록하고, 반성을 통해 자신과 환경에 대한 이해를 심화하며, 필요한 정보만을 선택해 행동에 반영할 수 있는 아키텍처를 제안합니다.

이러한 시스템은 The Sims 스타일의 게임 세계에서 비플레이어 캐릭터(NPC)로 구현되어, 에이전트들이 일상적인 삶을 살아가는 모습을 시뮬레이션합니다. 평가 결과, 이 아키텍처를 통해 생성된 행동들이 매우 믿을 만하다는 것을 확인할 수 있었습니다.

앞으로 Generative Agents는 디자인 도구, 사회 컴퓨팅 시스템, 몰입형 환경 등 다양한 인터랙티브 응용 분야에서 중요한 역할을 할 것으로 기대됩니다.

Tasker_Jang

ML Engineer 🧠 | AI 모델 개발과 최적화 경험을 기록하며 성장하는 개발자 🚀 The light that burns twice as bright burns half as long ✨