
논문 링크 : https://arxiv.org/abs/2304.03442
ReAct와 Toolformer 논문을 먼저 읽으면서 LLM이 추론 과정에서 행동을 선택하고 필요할 때 외부 도구를 사용하는 방식에 대해 이해하게 되었고 이후 단발적인 문제 해결이 아니라 시간 흐름 속에서 기억을 유지하고 행동을 이어가는 에이전트 구조에 관심이 생겼음
Generative Agents: Interactive Simulacra of Human Behavior 논문은 기억, 반성, 계획이라는 요소를 통해 에이전트가 장기적인 맥락을 유지하며 사람처럼 행동할 수 있음을 보여준다는 점에서 인상적이었으며 ReAct와 Toolformer에서 다뤄진 추론 및 행동 개념을 일상적 행동과 사회적 상호작용 수준으로 확장한 연구라고 생각되어 LLM 기반 에이전트에 대한 이해를 넓히기 위해 본 논문을 선정하게 됐음
최근 LLM은 단순한 텍스트 생성 모델을 넘어 추론과 행동을 결합한 에이전트 형태로 확장되고 있으며 ReAct와 Toolformer와 같은 선행 연구들은 LLM이 내부 추론 과정을 기반으로 행동을 선택하거나 외부 도구를 활용할 수 있음을 보여주고 LLM 기반 에이전트 연구의 가능성을 제시했음
그러나 이러한 접근들은 대부분 단일 문제 해결에 초점을 두고 있어 장기적인 시간 흐름 속에서 일관된 행동을 수행하거나 경험을 축적하는 에이전트를 설명하는 데에는 한계가 있었음
Generative Agents: Interactive Simulacra of Human Behavior는 이러한 한계를 보완하고자 기억(memory), 반성(reflection), 계획(planning) 이라는 요소를 결합한 새로운 에이전트 구조를 제안하였고 에이전트가 과거 경험을 자연어 형태의 기억으로 저장하고 이를 바탕으로 스스로를 요약과 추상화하며 장기적인 계획을 수립함으로써 사람과 유사한 행동 패턴과 사회적 상호작용을 보일 수 있음을 시뮬레이션 환경을 통해 보여줌
Generative Agents 논문에서는 에이전트의 행동과 상호작용이 단순한 규칙이나 미리 정의된 시나리오가 아니라 환경에 대한 인식과 기억을 기반으로 자연스럽게 발생함을 보여주고 이를 위해 논문에서는 Smallville이라는 가상 마을 환경을 설계하고 에이전트들이 이 공간 안에서 일상적인 활동과 사회적 상호작용을 수행하도록 함
Smallville 환경은 계층적인 구조로 표현되며 전체 세계(root node) 아래에 집, 카페, 상점, 학교와 같은 지역 단위가 존재하며 각 지역 내부에는 방, 가구, 물체와 같은 세부 객체들이 포함되었고 에이전트는 이 전체 환경을 완전히 알고 있는 것이 아닌 자신이 직접 관찰한 부분에 대해서만 부분적인 서브그래프 형태로 기억을 유지하며 즉, 에이전트의 세계 인식은 항상 불완전하며 관찰 경험에 따라 점진적으로 갱신됨
에이전트의 행동은 현재 위치, 관련된 기억, 그리고 사전에 수립된 계획을 함께 고려하여 생성됨
이러한 상호작용은 별도로 프로그래밍된 것이 아닌 각 에이전트가 자신의 기억과 계획을 기반으로 행동한 결과로 자연스럽게 발생함
또한 에이전트 간의 사회적 상호작용은 기억을 통해 누적되어 대화나 만남과 같은 사건은 기억으로 저장되고 이후 반성(reflection) 과정을 통해 관계나 성향에 대한 고차적인 정보로 추상화되고 이로 인해 에이전트들은 반복적인 상호작용을 통해 친밀도나 사회적 역할을 형성하며 집단 행동이나 소문 전파와 같은 현상이 나타나게 됨
Generative Agents는 에이전트의 행동과 상호작용이 단발적인 응답 생성이 아니라 환경 인식, 기억, 계획이 결합된 장기적인 과정임을 보여주며 LLM 기반 에이전트를 보다 현실적인 사회적 존재로 확장할 수 있음을 시사함
위 그림은 Generative Agents 논문에서 제안한 에이전트 구조가 실제로 일상 행동과 사회적 상호작용으로 어떻게 나타나는지를 시각적으로 보여주는 예시임
이 과정에서 에이전트는 하루 일정에 대한 계획을 먼저 수립하고 각 시간대에 맞는 행동을 선택함
이러한 행동 흐름은 ReAct에서의 단기적인 사고–행동 루프를 하루 단위의 장기 계획으로 확장한 형태로 볼 수 있음

Figure 4는 에이전트 간의 상호작용과 관계 형성이 어떻게 발생하는지를 보여주는데 한 에이전트가 특정 이벤트(발렌타인 데이 파티)를 계획하면 해당 의도가 기억으로 저장되고 다른 에이전트들과의 대화와 상호작용을 통해 점차 확산되고 이 과정에서 일부 에이전트는 해당 정보를 기억하지 못하거나 행동으로 옮기지 않을 수도 있으나 다수의 에이전트가 기억과 계획을 유지하면서 결과적으로 이벤트가 성사되는 모습이 나타남
중요한 점은 이러한 사회적 상호작용과 협력이 별도의 규칙이나 중앙 통제 없이 발생한다는 점인데각 에이전트는 자신이 관찰한 정보와 기억을 바탕으로 행동하며 반복적인 상호작용을 통해 관계 기억(relationship memory)이 형성되어 이로 인해 특정 에이전트 간 친밀도, 역할 분담, 소문 전파와 같은 사회적 현상이 자연스럽게 나타남
Generative Agents가 단순히 질문에 반응하는 시스템이 아니라 시간 흐름 속에서 계획을 세우고 기억을 축적하며 다른 에이전트와 상호작용하는 존재임을 보여주며 이는 LLM 기반 에이전트를 일회성 문제 해결 도구에서 벗어나 장기적 맥락과 사회적 행동을 수행할 수 있는 지능형 주체로 확장한 사례라고 볼 수 있음

Figure 5는 Generative Agents에서 제안한 에이전트의 전체 동작 구조를 나타낸 그림임. 에이전트는 환경을 인식(perceive)하는 단계부터 시작하여 기억 저장, 기억 검색, 계획 수립, 반성, 행동 실행으로 이어지는 순환 구조 를 가지는데 이 과정은 단발적으로 끝나는 것이 아니라, 반복되면서 에이전트의 상태가 시간에 따라 변화함
먼저 에이전트는 주변 환경을 인식하여 이때 발생한 모든 경험과 관찰 결과를 memory stream이라는 형태로 저장하고 memory stream은 에이전트가 지금까지 겪은 사건들의 연속적인 기록으로 단기 기억과 장기 기억을 구분하지 않고 자연어 형태로 누적되며 에이전트의 모든 경험이 하나의 시간 순서 스트림으로 관리됨
이후 에이전트가 행동을 결정해야 하는 상황이 되면 memory stream 전체를 사용하는 것이 아니라 retrieve 단계를 통해 현재 상황과 관련된 기억만 선택하고 이때 기억은 최근성, 중요도, 그리고 현재 맥락과의 관련성을 기준으로 점수가 매겨져 선택되고 그 기억들이 retrieved memories로 전달됨
retrieved memories는 단순히 즉각적인 행동을 결정하는 데만 사용되지 않고 에이전트는 이 기억들을 바탕으로 plan 단계에서 장기적인 행동 계획을 수립하고 reflect 단계에서는 여러 기억을 종합해 자신의 성향, 관계, 반복되는 행동 패턴과 같은 고차적인 정보를 생성하여 그 계획과 반성 결과 역시 새로운 기억으로 다시 memory stream에 저장됨
마지막으로 에이전트는 현재 상황, retrieved memories, 그리고 수립된 계획을 함께 고려하여 act 단계에서 실제 행동을 수행하고 이 행동의 결과는 다시 환경에 반영되어 새로운 인식과 경험으로 이어지면서 전체 과정이 다시 반복됨
이 구조의 핵심은 에이전트가 행동 → 기억 → 반성 → 계획 → 행동이라는 순환을 통해 점점 더 일관된 행동과 성향을 가지게 된다는 점이며 이는 ReAct나 Toolformer처럼 단기적인 추론과 행동에 초점을 둔 구조에서 나아가 시간 흐름 속에서 변화하는 에이전트 상태를 모델링했다는 점에서 의미가 있음
Figure 6은 Generative Agents에서 memory stream과 retrieval 과정이 실제로 어떻게 동작하는지를 보여주는 예시임
에이전트는 환경에서 발생한 모든 관찰 결과를 memory stream에 시간 순서대로 저장하며, 이 안에는 현재 상황과 직접적인 관련이 없는 정보도 함께 포함되며 즉, memory stream은 에이전트가 경험한 모든 사건의 누적 기록으로 구성됨
에이전트가 질문을 받거나 행동을 결정해야 하는 상황이 되면 memory stream 전체를 사용하는 것이 아니라 retrieval 단계를 통해 일부 기억만 선택하고 이때 각 기억은 최근성(recency), 중요도(importance), 그리고 현재 질문이나 상황과의 관련성(relevance)을 기준으로 점수가 계산됨
그림에서는 이 세 가지 점수를 곱한 값으로 최종 retrieval score가 계산되고 점수가 높은 기억일수록 언어 모델에 전달될 가능성이 높아짐
중요한 점은 retrieval이 단순한 키워드 매칭이 아니라 시간적 맥락과 의미적 중요도를 함께 고려한다는 점이며 이를 통해 에이전트는 항상 최신 정보만 사용하는 것이 아니라 상황에 따라 과거의 중요한 경험을 다시 불러와 활용할 수 있고 이는 RAG에서의 문서 검색과 유사하지만 검색 대상이 외부 문서가 아니라 에이전트 자신의 경험이라는 점에서 차이가 있음
이 구조는 에이전트가 불필요한 기억에 방해받지 않으면서도 현재 상황에 가장 적절한 경험을 선택해 응답하거나 행동할 수 있도록 하고 이를 통해 Generative Agents는 단순히 즉각적인 반응을 생성하는 시스템이 아니라 과거 경험을 바탕으로 맥락 있는 판단을 수행하는 에이전트로 동작하게 됨

Figure 7은 Generative Agents 논문에서 제안한 reflection 메커니즘이 어떻게 관찰 정보를 고차적인 자기 인식으로 추상화하는지를 보여주는 예시임
그림의 가장 아래에는 에이전트가 환경에서 직접 관찰한 세부적인 행동들이 observation 형태로 나열되어 있음
이러한 observation들은 그대로 사용되지 않고 일정 시점마다 reflection 과정을 거치게 되는데 reflection 단계에서는 여러 observation을 묶어 보다 추상적인 문장으로 요약함
이후 reflection은 다시 상위 단계의 reflection으로 재귀적으로 결합되며 여러 중간 reflection이 다시 요약되어 최종적으로는 “Klaus Mueller is dedicated to research”와 같은 자기 인식 수준의 문장이 생성되고 이 과정에서 에이전트는 단순히 무엇을 했는지를 넘어, 자신이 어떤 성향과 목적을 가진 존재인지에 대한 정보를 형성하게 됨
중요한 점은 이러한 reflection 결과가 일회성으로 사용되는 것이 아니라 다시 memory stream에 저장된다는 점이고 에이전트는 과거 행동을 바탕으로 형성한 자기 인식을 미래의 행동과 계획 수립에 다시 활용하여 에이전트는 시간이 지날수록 보다 일관된 성향과 행동 패턴을 보이게 됨
ㅅreflection 구조는 에이전트가 단순히 환경에 반응하는 수준을 넘어, 자신의 경험을 해석하고 정체성을 형성하는 주체로 동작할 수 있게 하고 이는 기존 ReAct나 Toolformer에서 다루지 않았던 장기적인 자기 모델링을 가능하게 한다는 점에서 의미가 있음
이 챕터에서는 Generative Agents를 실험하기 위해 설계한 샌드박스 환경과, 해당 환경에서 에이전트가 어떻게 구현되었는지를 함께 설명하였으며 논문에서는 Smallville이라는 가상 마을 환경을 구축하여 에이전트들이 시간과 공간 개념을 가지며 일상적인 행동과 사회적 상호작용을 수행할 수 있도록 함
Smallville은 전체 마을을 루트로 하고, 집, 카페, 상점, 학교와 같은 장소 단위가 존재하며 각 장소 내부에는 방이나 객체가 포함되는 계층적인 구조로 설계되고 에이전트는 이 환경 전체를 미리 알고 있는 것이 아니라 자신이 직접 이동하고 관찰한 부분만 부분적으로 인식하여 에이전트의 세계 인식은 항상 제한적이며 경험을 통해 점진적으로 확장됨
Implementation 측면에서는 각 에이전트가 LLM을 중심으로 memory stream, retrieval, reflection, planning 모듈로 구성된 순환 구조를 가지고 에이전트가 환경을 인식하면 해당 경험이 자연어 형태로 memory stream에 저장되며 이후 행동을 결정할 때는 최근성, 중요도, 관련성을 기준으로 필요한 기억만을 검색하고 reflection과 planning 과정에서 생성된 고차적인 정보 역시 다시 memory stream에 저장되어 이후 행동에 영향을 미침
Generative Agent가 단순히 LLM에 질의를 던지는 구조가 아니라 기억과 상태를 가지는 시스템으로 구현되었다는 점과 이를 검증하기 위한 실험 환경이 체계적으로 설계되었다는 점임
Figure 8은 Generative Agent 아키텍처의 각 구성 요소가 에이전트 행동의 자연스러움에 어떤 영향을 미치는지를 평가한 controlled evaluation 결과를 보여주며 이 실험에서는 전체 아키텍처를 사용한 경우와 reflection, planning, observation과 같은 요소를 하나씩 제거한 ablation 모델들을 비교하고 비교 대상으로 인간 크라우드워커의 행동도 함께 포함함
평가는 TrueSkill Rank Rating을 사용하여 생성된 행동이 얼마나 자연스럽고 사람처럼 보이는지를 기준으로 진행되었고 결과를 보면 full architecture를 사용한 에이전트가 가장 높은 점수를 기록하며 reflection이나 planning과 같은 구성 요소를 제거할수록 성능이 점진적으로 감소하는 경향을 보였으며 특히 reflection과 planning이 제거된 경우에는 행동의 일관성과 설득력이 크게 떨어짐
이 결과는 Generative Agent의 자연스러운 행동이 단일 모듈의 효과가 아니라 memory, reflection, planning이 함께 결합된 구조에서 나온다는 점을 보여주고 full architecture가 인간 크라우드워커보다도 높은 평가를 받았다는 점에서 제안한 구조가 사람처럼 보이는 행동 생성에 효과적임을 시사하지만 평가는 여전히 주관적인 판단에 기반한 지표라는 한계도 존재함

Figure 9는 Generative Agent 시스템 전체를 통합한 상태에서 수행한 end-to-end evaluation 결과를 시각적으로 나타낸 그림이며 이 실험에서는 하나의 에이전트(Isabella)가 발렌타인 데이 파티를 계획하고, 해당 정보가 다른 에이전트들에게 어떻게 전파되는지를 관찰함
그림에서 보듯이 파티에 대한 정보는 Isabella로부터 시작되어 직접 대화를 나눈 에이전트들을 거쳐 점차 다른 에이전트들에게 확산되었고 이 과정에서 각 에이전트는 단순히 메시지를 전달하는 역할을 하는 것이 아니라 자신의 기억과 계획에 따라 정보를 공유하거나 행동을 결정하며 그 결과 일부 에이전트는 파티에 참여 의사를 밝히거나 새로운 이벤트를 추가로 조직하는 등 파생 행동을 보이기도 함
중요한 점은 이러한 정보 확산과 사회적 상호작용이 미리 정의된 규칙이나 시나리오에 의해 발생한 것이 아니라 각 에이전트의 memory–reflection–planning 구조에 의해 자연스럽게 나타났다는 점이고 이 실험을 통해 논문은 Generative Agent가 단일 에이전트 수준을 넘어 다중 에이전트 환경에서도 사회적 행동과 집단 현상을 생성할 수 있음을 보여줌
Generative Agents 논문은 LLM 기반 에이전트를 단발적인 문제 해결 시스템이 아니라 시간 흐름 속에서 기억을 축적하고 행동을 이어가는 존재로 확장했다는 점에서 의미가 큰데 특히 memory stream, reflection, planning을 결합한 구조를 통해 에이전트가 일관된 성향과 사회적 행동을 보일 수 있음을 실험적으로 보여준 점이 인상적이었으며 이는 기존 ReAct나 Toolformer가 다루지 않았던 장기적 맥락과 자기 인식 개념을 에이전트 연구에 도입한 사례라고 볼 수 있음
다만 본 논문은 평가 방식 측면에서 한계도 존재하는데 controlled evaluation과 end-to-end evaluation 모두 주로 질적 분석과 인간 평가에 의존하고 있어 에이전트 성능을 정량적으로 비교하기 어렵다는 점이 있고 memory stream이 자연어 기반으로 무한히 누적되는 구조이기 때문에 장기적으로는 잘못된 기억이나 불필요한 정보가 쌓일 가능성도 존재하며 reflection 과정 역시 언어 모델의 출력에 의존하므로 자기 인식이 부정확하게 형성될 위험이 있음
그럼에도 불구하고 본 논문은 에이전트의 지능을 어떻게 정의할 것일지 근본적인 질문을 제기하며 이후 agent evaluation, long-term memory 관리, 그리고 개인화된 사용자 모델링 연구로 확장될 수 있는 중요한 출발점을 제공함
본 논문에서는 기억(memory), 반성(reflection), 계획(planning) 을 중심으로 한 Generative Agent 아키텍처를 제안하고 이를 가상 샌드박스 환경에서 실험함으로써 LLM 기반 에이전트가 장기적인 맥락을 유지하며 사람과 유사한 행동과 사회적 상호작용을 수행할 수 있음을 보여줬고 controlled evaluation을 통해 각 구성 요소의 기여도를 확인하고 end-to-end evaluation을 통해 다중 에이전트 환경에서의 사회적 행동과 정보 확산이 자연스럽게 발생함을 관찰함
이 논문은 LLM을 단순한 응답 생성 모델이 아니라 경험을 축적하고 스스로를 갱신하는 주체로 바라보는 새로운 관점을 제시하였고 이러한 접근은 향후 개인화 추천 시스템, 대화형 AI, 시뮬레이션 기반 연구 등 다양한 분야로 확장될 수 있으며 장기 기억 관리와 에이전트 평가 방법에 대한 후속 연구의 필요성을 함께 제시하며 결과적으로 Generative Agents는 LLM 기반 에이전트 연구에서 중요한 전환점이 되는 연구라고 볼 수 있음
이번 논문은 ReAct와 Toolformer를 읽은 이후, Agent 개념이 어디까지 확장될 수 있는지를 잘 보여준 논문이라고 느꼈으며 ReAct를 통해 LLM이 추론과 행동을 결합할 수 있다는 점을 이해했고 Toolformer에서는 도구 사용을 프롬프트가 아니라 학습된 행동으로 다룬다는 점이 인상적이었는데 Generative Agents는 여기서 더 나아가 LLM을 하나의 문제 해결자가 아니라 시간 흐름 속에서 경험을 쌓아가는 존재로 다루고 있다는 점이 흥미로웠음
특히 기억을 자연어 형태로 계속 저장하고, 이를 바탕으로 스스로를 요약하고 계획을 세운다는 구조가 인상적이었으며 이로 인해 에이전트의 행동이 즉흥적으로 튀어나오는 것이 아니라 이전 경험과 성향을 반영한 결과처럼 보였고 여러 에이전트가 함께 있을 때 관계 형성이나 정보 확산 같은 사회적 현상이 자연스럽게 나타난다는 점도 재미있게 느껴졌음
물론 정량적인 평가가 부족하고 memory가 계속 쌓이면서 생길 수 있는 문제점들도 보이지만이 논문은 Agent를 어떻게 봐야 하는지에 대한 관점을 바꿔줬다는 점에서 의미가 크다고 생각함. Toolformer가 이후 Tool-augmented Agent 연구의 출발점이 되었듯이 Generative Agents 역시 장기 기억 기반 Agent나 사용자 모델링, 사회적 시뮬레이션 연구로 이어지는 흐름을 이해하는 데 좋은 기준점이 되는 논문이라고 느껴졌음
논문 만족도 : ⭐️⭐️⭐️⭐️ (샌드박스 환경을 통해 실험하는 부분이 인상깊고 더 재밌게 논문을 읽을 수 있게 해주었음)
논문 이해도 : ⭐️⭐️⭐️⭐️ (샌드박스 환경으로 마치 게임의 한 부분처럼 설명을 해주어서 다른 논문에 비해 이해하기 좋았음)
Agent 관심도 : ⭐️⭐️⭐️ (agent에 대한 이해도와 관심도가 계속 상승중임)
넘 재밌어요~