
AgentCF는 사용자 구매 이력을 기반으로 사용자/아이템을 각각 에이전트로 생성하고, 각자의 메모리를 초기화합니다. 학습 과정에서는 pairwise 방식으로 positive/negative item을 제공하며, user agent는 이 중 하나를 선택하고 선택 이유를 생성합니다. 실제 상호작용 기록과 비교하여 잘못된 선택 시 user/item agent가 자율적으로 reflection을 통해 메모리를 업데이트합니다. 이 과정을 반복하면서 에이전트는 점점 현실 사용자와 아이템의 특성을 더 잘 반영하게 됩니다.
AgentCF는 추천 시스템의 사용자–아이템 상호작용을 에이전트 기반 협업 필터링으로 시뮬레이션하는 프레임워크입니다.
기존 연구가 주로 사용자 에이전트만 다루었다면, AgentCF는 아이템도 에이전트로 설정하여 사용자 에이전트와 함께 최적화하는 점이 핵심입니다. 즉, 사용자와 아이템 모두가 자율적으로 상호작용하고, 이를 통해 개인화된 행동 패턴(선호도)을 학습하도록 지원합니다.
이를 위해 LLM(대규모 언어 모델)은 ‘동결(freeze)’되어 파라미터가 바뀌지 않고, 에이전트들의 ‘메모리(문자열 형태)’를 반복적으로 업데이트하며 협업 필터링을 수행합니다. 이렇게 사용자–아이템 양측 에이전트가 함께 최적화되어, 실제 사용자의 구매 기록과 비교하면서 현실에 가까운 추천 시뮬레이션이 가능합니다.
일반적인 인간 행동에는 대화뿐 아니라, 제품 구매·클릭과 같은 비언어적 상호작용이 존재합니다. 예를 들어, 추천 시스템에서는 “금요일에 기저귀를 사는 사람이 맥주도 구매할 확률이 높다”와 같은 행동 패턴이 협업 필터링 모델에서 잘 포착됩니다. 하지만 이 같은 사용자 행동 패턴을 단순히 자연어로만 LLM에게 전달하면, LLM이 보편적 언어적 지식에 의존하여 개인화된 행동 모델링에 어려움을 겪을 수 있습니다.
이를 해결하기 위해, AgentCF는 사용자 에이전트(user agent)와 아이템 에이전트(item agent)를 모두 시뮬레이션하고 협업 학습(collaborative learning)을 수행합니다. 아이템은 직접 ‘행동(구매)’을 하지는 않지만, 자신을 좋아할 수 있는 ‘잠재적 채택자(preferrer)’ 정보를 에이전트 메모리에 축적하고, 사용자가 해당 아이템을 선택하도록 영향을 주는 형태로 모델링합니다. 이렇게 사용자의 선호뿐 아니라 아이템의 관점(특징·주요 수요층)이 함께 최적화되는 방식으로 동작합니다.
FAQ: “아이템은 직접 행동하지 않는데 에이전트로 두는 이유?”
아이템 에이전트를 별도로 둠으로써, 이 아이템이 어떤 특성을 가졌고, 누구에게 선호되었는지를 기록·갱신할 수 있습니다. 즉, 사용자가 아이템을 평가하듯, 아이템도 ‘잠재적 채택자’를 가진다는 관점으로 에이전트를 구성합니다. 이를 통해 사용자가 다른 아이템과 상호작용할 때, 아이템들이 알고 있는 사용자들의 취향 정보를 유기적으로 전파할 수 있습니다.
LLM 동결(freeze)
사용자/아이템 에이전트 초기화
학습(시뮬레이션) 방식 개요
에이전트 기반 협업 필터링을 구현하기 위해, 사용자 에이전트와 아이템 에이전트가 가진 메모리를 어떻게 구성·갱신하는지를 설명합니다.
Previous Memory : 구매 이력에 없는 item은 neg에 포함되어 있음
Autonomous Interaction : user agent 메모리의 잘못된 정보로 원래 구매 이력과 다른 선택을 함
Reflection & Memory Update : 시스템의 응답에 따라 user, item 에이전트가 수정됨사용자 에이전트의 메모리
- 단기 메모리 (Short-term memory, (M_u^s))
“현재” 사용자의 취향이나 상태를 표현하는 자연어 텍스트를 저장합니다. 예시:
“나는 에너지가 넘치는 기타 록 음악을 좋아해.”
“이 CD는 파워풀한 보컬과 서정적인 멜로디로 구성되어 있어, 에너지가 넘치는 록을 좋아하는 사람에게 어필함.”
Advanced Prompting Strategies
: 장기 메모리에서 사용자에게 특화된 정보를 검색해 추가하거나
: 사용자 과거 상호작용 리스트 자체를 추가로 제공해 순차 추천으로 확장하는 방법을 시도할 수 있습니다.
AgentCF의 학습 및 평가를 어떻게 진행했는지, 실험 과정을 요약합니다. 샘플링 방식, 평가지표, 비교 모델 설정, 추가 분석, 그리고 다양한 상호작용 유형을 시뮬레이션한 결과를 간략히 정리했습니다.

Sparsity 제어:
후보 아이템 구성:
비교 모델:

LLMRank는 사용자의 과거 이력을 LLM에 바로 입력해 Zero-shot 추론을 수행하지만, 내부 파라미터가 변경되지 않고 메모리 업데이트 과정이 없다는 점에서 AgentCF와 차이를 보입니다.
AgentCF는 사용자·아이템 에이전트가 반성(reflection)을 통해 메모리를 지속적으로 갱신한다는 특징 덕분에, LLMRank 대비 꾸준히 높은 NDCG 성능을 달성합니다.
또한, Office 데이터셋이 item description text가 더 길기 때문에, LLM이 활용할 수 있는 자연어 정보가 많아지는 효과가 있습니다. 이로 인해 전반적으로 Office가 CD보다 LLM 기반 모델들의 성능이 더 높게 나타납니다(예: LLMRank, AgentCF 변형들). 즉, 충분한 텍스트 설명이 제공될수록 LLM이 사용자·아이템 메모리(및 과거 행동)에 대한 추론을 풍부하게 수행할 수 있어 개인화 품질이 더 좋아진다는 점을 확인할 수 있습니다.

w/o Autonomous Interaction
w/o User Agent
w/o Item Agent★


사용자–사용자 상호작용
아이템–아이템 상호작용
선호도 전파(Preference Propagation)

Item 자신과 구별되는 다른 identity 정보를 가지는 에이전트와의 상호작용에서도 성능이 향상되는 모습을 확인할 수 있습니다.
=> 이는 논문에서 identity 정보와 메모리 사이의 관계를 이해하고 있다고 해석합니다.
FAQ: “Identity와 Memory는 무엇이 다를까?"
Identity 정보: 아이템의 고유하고 변하지 않는 특성(예: “이 앨범은 록 장르다.”).
메모리: 실제로 여러 사용자와 상호작용하면서 얻은 동적 정보(“로맨틱한 분위기의 곡을 좋아하는 사용자들이 이 앨범도 좋아했다.”)
FAQ: "서로 다른 Identity를 가진 아이템과도 협업이 되는가?"
록 앨범(A)을 예로 들면, 처음에 “록 장르”라는 Identity만 있으면 주로 록 음악 팬에게만 매력적일 것처럼 보입니다.
하지만 A가 사용자들과 여러 번 상호작용하다 보면, “록 팬이 아니더라도 에너지가 넘치는 곡을 좋아하면 괜찮아할 수 있다” 같은 추가 정보(메모리)를 얻게 됩니다.
이 정보를 “전혀 다른 장르”로 분류된 앨범(B)과 교환(아이템 간 상호작용)할 때, B도 A가 발견한 “에너지가 넘치는 곡” 선호 사용자 정보를 활용할 수 있습니다.
FAQ: "관계를 이해하고 있다는 것이 무슨 의미일까?"
서로 다른 Identity(장르, 특성)를 갖더라도, 상호작용에서 얻은 메모리(사용자들이 어떤 면을 좋아했는지) 덕분에 아이템들끼리 협업이 가능해지고, 그 결과 성능(추천 정확도)이 더 좋아진다는 점에서 "관계를 이해하고 있다"고 표현한 것이라 생각합니다.
AgentCF는 사용자와 아이템을 모두 에이전트로 모델링하고, LLM은 동결한 채 이 에이전트들의 메모리만 협업적으로 업데이트하는 방식으로 작동합니다.
향후에는 대규모 데이터셋을 대상으로 스케일업하거나, 에이전트 간 협력이 필요해지는 추가 시나리오(멀티에이전트 협업, 윤리적 프라이버시 고려 등)를 탐색함으로써, LLM 에이전트 생태계를 발전시킬 수 있을 것으로 기대됩니다.
원문 (Original Text)
In this experiment, we explore whether interactions between new
and popular item agents can enable new item agents to estimate the
preferences of potential adopters and alleviate cold-start problems.
To do this, for well-trained user and item agents, we first simulate
the item cold-start scenario by removing the memories of ground
truth item agents, and only retaining their identity information,
such as titles and categories. Then, we enable these “new” item
agents to retrieve and interact with several popular item agents that
possess either similar or distinct identity information to them but
have rich interaction records, by performing dense retrieval and
taking their identity information as queries. During this process,
the “new” item agents read the memory of popular item agents,
thereby estimating their potential descriptions and adjusting their
memory. We finally prompt the user agents to rank these ground
truth items among nine other randomly sampled but well-trained
item agents, and compare the ranking results obtained using the
original cold-start memories and the adjusted memories.
한국어 번역 (Translation)
본 실험에서는, 새로운(new) 아이템 에이전트와 인기(popular) 아이템 에이전트 간의 상호작용이 새로운 아이템 에이전트에게 잠재적 사용자(채택자)의 선호도를 추정할 수 있는 단서를 제공하고, 콜드스타트 문제를 완화할 수 있는지 탐구합니다.
이를 위해, 우선 잘 학습된 사용자/아이템 에이전트를 준비하고, 아이템 콜드스타트 상황을 시뮬레이션하기 위해 실제 아이템(ground truth) 에이전트의 메모리를 제거하고, 제목/카테고리와 같은 최소한의 아이덴티티 정보만 남깁니다. 그 후, 이러한 ‘신규(new)’ 아이템 에이전트가 자신과 비슷하거나 혹은 전혀 다른 아이덴티티를 가진 인기 아이템 에이전트와 상호작용하도록 합니다(“Dense Retrieval” 기법을 사용해, 인기 아이템의 아이덴티티 정보를 쿼리로 삼아 검색).
이 과정에서 신규 아이템 에이전트는 인기 아이템 에이전트의 메모리를 읽어보며, 자신의 잠재적 설명(아이템 특징)을 추론·갱신하게 됩니다. 마지막으로 사용자 에이전트에게 해당 아이템을 9개의 다른 (이미 잘 학습된) 아이템 후보와 함께 랭킹하게 하고, 메모리를 조정하기 전(콜드스타트 상태)과 조정한 후(정보 반영)의 순위를 비교합니다.
원문 (Original Text)
• Cold-start Item Agent The CD is called “Early Days: The Best of Led Zeppelin, Vol. 1”. The category of this CD is: “Rock; Rock Guitarists; Guitar Gods”. • Popular Item Agent A “Led Zeppelin 1” is a Rock CD that epitomizes captivating rock music with powerful guitar solos and a raw energy... ...(이하 생략)
한국어 번역 (Translation)
• 콜드스타트 아이템 에이전트 이 CD의 이름은 “Early Days: The Best of Led Zeppelin, Vol. 1”이며, 카테고리는 “Rock; Rock Guitarists; Guitar Gods”로 설정합니다. • 인기 아이템 에이전트 A “Led Zeppelin 1”은 강렬한 기타 솔로와 거친 에너지가 돋보이는 매력적인 록 음악을 상징하는 Rock CD입니다... ...위와 같이, “Cold-start Item Agent”의 메모리는 제목과 카테고리 등 최소 정보만 남기고,
“Popular Item Agent A/B/C/...”는 풍부한 사용자 상호작용 기록과 특성을 포함하고 있습니다.
원문 (Original Text)
• Cold-start Item Agent system prompt “Early Days: The Best of Led Zeppelin, Vol. 1” is a rock CD that showcases the captivating exceptional talent of Led Zeppelin...한국어 번역 (Translation)
• 콜드스타트 아이템 에이전트에게 주어지는 system prompt “Early Days: The Best of Led Zeppelin, Vol. 1”은 Led Zeppelin의 탁월한 재능을 보여주는 록 CD입니다...
- 이와 같은 System Prompt를 통해, 신규 아이템 에이전트가 인기 아이템 에이전트들의 메모리(예: 기타 연주 스타일, 장르 특성, 사용자 반응)에서 추가 정보를 흡수해, 자기소개(메모리)를 갱신하게 됩니다.