An Zhang ACM SIGIR 24
Agent4Rec의 개발 : Agent4Rec은 추천 시스템을 시뮬레이션하기 위해 설계된 LLM 기반의 생성 에이전트로, 사용자 행동을 모사하는 데 초점을 맞춘다.
사용자 행동 시뮬레이션 : Agent4Rec은 실제 인간의 행동을 효과적으로 시뮬레이션할 수 있는 능력을 보여주었다. 에이전트는 추천된 아이템에 대해 사용자와 유사한 반응을 보였으며, 높은 정확도와 재현율을 유지했다.
필터 버블 효과 재현 : 시뮬레이션 결과, 반복적인 추천 과정에서 영화 추천이 점점 중앙 집중화되는 경향이 나타났다. 장르 다양성은 감소하고, 특정 장르의 지배력은 강화되는 결과를 보였다. 이는 실제 추천 시스템에서 관찰되는 필터 버블 현상을 잘 반영한다.
인과 관계 분석 : 인과 관계 분석 결과, 영화 품질과 인기가 영화 평점에 주요한 영향을 미치는 것으로 나타났다. 높은 노출을 받은 영화는 더 많은 시청과 평점 증가를 유도하며, 이는 인기 편향을 강화하는 피드백 루프를 형성한다.
연구 배경 : 추천 시스템은 정보 전파의 핵심이지만, 오프라인 메트릭과 온라인 성능 간의 단절이 발전을 저해한다. 이를 해결하기 위해, LLM의 인간 수준의 지능을 활용한 추천 시뮬레이터를 구상한다.
제안 시스템 : Agent4Rec은 LLM 기반의 생성 에이전트를 사용하는 사용자 시뮬레이터이다. 사용자 프로필, 메모리, 행동 모듈을 추천 시스템에 맞춰 설계하며, 실제 데이터셋을 통해 에이전트의 특성을 초기화한다.
주요 기능 : 에이전트는 개인화된 추천 모델과 페이지 단위로 상호작용하고, 협업 필터링 기반 추천 알고리즘을 사용한다. 이 시스템은 에이전트의 행동을 통해 실제 자율적 인간의 행동을 시뮬레이션할 수 있는 가능성을 탐구한다.
연구 목표 : Agent4Rec의 능력과 한계를 평가하고, 추천 선호 간의 일치 및 편차를 분석한다. 또한, 필터 버블 효과를 모방하고 추천 작업의 인과 관계를 발견하는 통찰력 있는 실험을 진행한다.

Agent4Rec은 영화 추천 시나리오에서 1,000개의 LLM 기반 생성 에이전트를 사용하는 사용자 시뮬레이터이다. 이 에이전트들은 MovieLens-1M 데이터셋을 기반으로 초기화되며, 다양한 사회적 특성과 선호를 가진다.
각 에이전트는 개인화된 영화 추천을 페이지 단위로 상호작용하며, 여러 가지 행동을 수행한다. 여기에는 영화 시청, 평가, 리뷰, 종료, 인터뷰 등이 포함된다. Agent4Rec을 통해 LLM 기반 생성 에이전트가 추천 환경에서 실제 독립적인 인간의 행동을 시뮬레이션할 수 있는 가능성을 탐구하고자 한다.

Agent4Rec의 전반적인 구조이다. 이 시뮬레이터는 두 가지 핵심 요소로 구성된다. LLM 기반 생성 에이전트(빨간색 섹션)와 추천 환경(파란색 섹션)이다. 사용자와 아이템 프로필은 실제 데이터셋(예: MovieLens-1M, Steam, Amazon-Book)을 사용하여 초기화된다.
추천 알고리즘은 시스템의 적응 가능한 구성 요소로, 에이전트에게 페이지 단위로 제시되는 아이템 추천을 생성한다. 에이전트들은 추천 시나리오에 맞춘 특화된 메모리 및 행동 모듈로 강화되어, 다양한 행동을 시뮬레이션한다. 여기에는 아이템 시청, 평가, 피드백 제공, 다음 페이지로 이동, 시스템 종료, 종료 후 인터뷰 참여 등이 포함된다.
연구 배경 : 추천 시스템은 현대 정보 전파에서 중요한 역할을 하며 개인의 선호와 인지 과정을 형성한다. 그러나 기존의 감독형 추천 접근 방식은 오프라인 메트릭과 온라인 성능 간의 큰 격차로 인해 한계를 드러내며, 이는 학술 연구와 실제 추천 배포 간의 통합을 저해한다. 이러한 문제를 해결하기 위해, 사용자 의도를 충실히 포착하고 인간 인지 메커니즘을 인코딩하는 시뮬레이션 플랫폼의 필요성이 대두된다.
제안 시스템 : Agent4Rec은 LLM 기반 생성 에이전트를 사용하는 일반 사용자 시뮬레이터로, 추천 환경 내에서 1,000개의 에이전트를 시뮬레이션한다. 각 에이전트는 실제 데이터셋을 기반으로 초기화되며, 사용자 프로필, 메모리, 행동 모듈로 구성된다. 프로필 모듈은 개인화된 사회적 특성과 과거 선호를 저장하고, 메모리 모듈은 과거 시청 행동과 감정적 기억을 기록하여 정보 검색 및 감정 기반 반영을 가능하게 한다. 행동 모듈은 추천 환경과 상호작용하며 다양한 행동을 수행한다.
추천 알고리즘 : 에이전트는 사전 정의된 추천 알고리즘을 통해 페이지 단위로 아이템을 추천받으며, 주로 협업 필터링 기반 전략을 통합한다. 시뮬레이터는 개방형 인터페이스를 제공하여 연구자와 실무자가 원하는 추천 알고리즘을 쉽게 배포할 수 있도록 설계되었다.
평가 방법 : Agent4Rec의 효과성과 한계를 평가하기 위해 사용자와 추천 시스템의 관점에서 포괄적인 실험을 수행한다. 사용자의 관점에서는 에이전트의 일치 정도를 평가하고, 추천 시스템의 관점에서는 다양한 알고리즘으로 구성된 추천자들을 평가한다. 평가 지표는 추천된 아이템 수, 사용자 평점, 사용자 참여 시간, 전반적인 사용자 만족도를 포함한다.
실험 : 두 가지 실험을 통해 추천 작업의 해결되지 않은 문제를 탐구한다. 첫 번째 실험에서는 필터 버블 효과를 모방하여 중앙집중화된 추천 현상을 이해하고, 두 번째 실험에서는 데이터 수집 도구로서의 역할을 하여 인과 관계를 발견한다.
기여 :
Agent4Rec은 최첨단 기술과 추천 시스템의 도전 과제 사이의 교차점에 위치하며, 이 연구 방향에서 더 많은 연구를 촉진할 수 있는 실험 플랫폼을 제공한다.
Agent4Rec은 추천 시나리오에서 사용자 시뮬레이션을 수행하며, 사용자 행동을 정확하게 반영하고 장기적인 사용자 선호를 효과적으로 예측하며 추천 알고리즘을 체계적으로 평가하는 것을 목표로 한다. 이를 위해 두 가지 핵심 요소를 고려한다 :
Agent4Rec은 LangChain을 수정하여 개발되었고, 모든 에이전트는 ChatGPT의 gpt-3.5-turbo 버전으로 구동된다.
사용자 와 아이템 가 주어졌을 때, 은 사용자가 아이템 와 상호작용을 했고, 이후 로 평가했음을 나타낸다. 반대로, 은 사용자가 해당 아이템을 채택하지 않았음을 의미한다. 각 아이템 의 품질은 다음과 같이 표현된다:
아이템의 인기도는 로 나타내며, 아이템의 장르 집합은 로 주어진다. 시뮬레이터의 궁극적인 목표는 사용자가 보지 않은 추천 아이템 에 대한 진정한 선호 와 평가 를 충실히 추출하는 것이다.
Agent4Rec의 생성 에이전트는 LLM을 기반으로 하여 추천 시나리오에 맞춘 세 가지 전문화된 모듈(프로필 모듈, 메모리 모듈, 행동 모듈)을 통해 기능을 향상시킨다. 특히, 개인화된 진정한 인간 행동을 모사하기 위해 각 에이전트는 개인화된 사회적 특성과 선호를 반영하는 사용자 프로필 모듈을 통합한다. 또한, 인간의 인지 과정을 모델링하여 과거 상호작용과 감정을 저장, 검색 및 적용하여 일관된 행동을 생성할 수 있도록 메모리 및 행동 모듈이 장착된다.
개인화된 추천 시뮬레이션 분야에서 사용자 프로필 모듈은 에이전트의 진정한 인간 행동과의 일치를 보장하는 중요한 역할을 한다. 생성 에이전트의 후속 시뮬레이션 및 평가를 위한 신뢰할 수 있는 기반을 마련하기 위해, MovieLens-1M, Steam, Amazon-Book과 같은 벤치마크 데이터셋을 초기화에 사용한다. 각 에이전트의 프로필은 두 가지 구성 요소(사회적 특성과 고유한 취향)로 이루어진다.
사회적 특성 (Social Traits) : 세 가지 주요 특성(활동, 순응, 다양성)을 포함하며, 추천 시나리오에서 개인의 성격과 특성을 포착한다.
활동 : 사용자가 추천 아이템과 상호작용하는 빈도와 폭을 정량화한다. 에이전트의 활동 특성은 다음과 같이 정의된다:
순응 : 사용자의 평가가 평균 아이템 평가와 얼마나 일치하는지를 설명하며, 독립적인 관점을 가진 사용자와 대중적인 의견에 가까운 사용자를 구분한다. 사용자 의 순응 특성은 다음과 같이 정의된다:
다양성 : 사용자가 다양한 장르의 아이템에 얼마나 선호를 두는지를 반영한다. 사용자 의 다양성 특성은 다음과 같이 정의된다:
사용자는 일반적으로 이러한 사회적 특성에서 특정 분포를 보이며, 이를 기반으로 각 특성에 따라 세 가지 불균형 계층으로 분류한다.
고유한 취향 (Unique Tastes) : 각 사용자에 대해 시청 기록에서 무작위로 25개 아이템을 선택하여 자연어로 개인화된 선호를 인코딩한다. 평점이 3 이상인 아이템은 '좋아함'으로, 3 미만인 아이템은 '싫어함'으로 분류한다. ChatGPT를 활용하여 사용자가 보인 고유한 취향과 평가 패턴을 요약하여 프로필에 포함시킨다. 이러한 개인화된 아이템 취향은 사용자 프로필에 두 번째 구성 요소로 통합된다.
Agent4Rec에서는 개인 식별자(이름, 성별, 나이, 직업 등)를 의도적으로 숨겨서 개인정보 보호 문제를 해결하고, 널리 적용 가능성을 보장한다. 이러한 속성들은 다른 유형의 에이전트를 형성하는 데 유용할 수 있지만, 추천의 범주에서는 사용자의 아이템 선호를 지배하지 않는다. 선호는 과거 시청 기록, 평가 패턴, 사용자 상호작용에 내재된 통찰을 통해 충분히 유추할 수 있다.
인간은 다양한 기억을 보유하며, 주로 사실적 기억과 감정적 기억으로 구분된다. 이 중 감정적 기억은 개인의 역사에서 핵심적인 역할을 하며, 의사결정에 더 강한 영향을 미친다. 기존 연구들은 에이전트의 메모리 구조를 상세히 설명하였으나, 감정적 기억은 대체로 간과되었다.
Agent4Rec에서는 각 생성 에이전트 내에 전문화된 메모리 모듈을 내장하여 사실적 기억과 감정적 기억을 기록한다. 추천 작업에 맞춰 설계된 사실적 기억은 추천 시스템 내에서의 상호작용 행동을 포함하고, 감정적 기억은 이러한 상호작용에서 발생하는 심리적 감정을 포착한다.
사실적 기억 : 추천된 아이템 목록과 사용자 피드백을 포함한다. 피드백은 사용자가 아이템을 시청했는지, 해당 아이템에 대한 평점, 종료 행동 등을 포함한다.
감정적 기억 : 시스템 상호작용 중 사용자의 감정을 기록하며, 피로도 및 전반적인 만족도와 같은 요소를 포함한다. 이는 생성 에이전트가 단순히 과거의 사실적 상호작용에만 반응하는 것이 아니라, 감정도 고려하여 진정한 인간 행동을 더욱 잘 모사하도록 한다.
메모리는 자연어 설명과 벡터 표현의 두 가지 형식으로 저장된다. 자연어 설명은 인간이 이해하기 쉽게 설계되었으며, 벡터 표현은 효율적인 기억 검색과 추출을 위해 최적화된다.
에이전트가 추천 환경과 상호작용할 수 있도록 세 가지 메모리 작업을 도입한다.
메모리 검색 (Memory Retrieval) : 이전 연구의 통찰을 바탕으로, 이 작업은 에이전트가 메모리 모듈에서 가장 관련성 높은 정보를 추출하도록 돕는다.
메모리 기록 (Memory Writing) : 에이전트가 시뮬레이션한 상호작용 및 감정을 메모리 스트림에 기록할 수 있게 한다.
메모리 반영 (Memory Reflection) : 추천에서 감정이 사용자 행동에 미치는 영향을 인식하고, 감정 기반 자기 반영 메커니즘을 통합한다. 이는 기존 에이전트 메모리 설계(예: 자기 요약, 자기 검증, 자기 수정)와는 대조적이다. 에이전트의 행동이 미리 정의된 횟수를 초과하면 반영 과정이 시작된다. LLM의 능력을 활용하여 에이전트는 추천에 대한 만족도와 피로도를 introspect(내성적으로 성찰)하며, 자신의 인지 상태에 대한 더 깊은 이해를 제공한다.
에이전트에 사용자 프로필과 메모리 모듈을 장착함으로써, 에이전트는 현재 관찰에 기반하여 인간과 유사한 다양한 행동을 보일 수 있다. Agent4Rec에서는 추천 도메인에 특화된 행동 모듈을 설계하였으며, 이는 두 가지 주요 범주의 행동을 포함한다:
취향 기반 행동 (Taste-driven Actions) : 아이템을 시청하고 평가하며, 시청 후 감정을 생성하는 행동이다. Agent4Rec에서는 추천 알고리즘에 의해 생성된 추천 아이템이 페이지 단위로 에이전트에게 제시된다. 에이전트는 각 페이지의 아이템을 자신의 선호와 일치하는지 평가하며, 관심 있는 아이템은 시청하고 나머지는 건너뛸 수 있다. 시청한 각 아이템에 대해 평점과 감정을 제공한다.
감정 기반 행동 (Emotion-driven Actions) : 추천 시스템을 종료하고 평가하며, 종료 후 인터뷰를 진행하는 행동이다. 추천 환경에서의 감정은 에이전트의 경험에 큰 영향을 미치며, 이는 시뮬레이션에서 종종 간과된다. 에이전트는 이전 추천 아이템에 대한 만족도와 현재의 피로도가 다음 추천 페이지를 탐색할지 또는 추천 시스템을 종료할지를 결정하는 데 영향을 미친다. 이러한 다면적인 의사결정을 보다 잘 시뮬레이션하기 위해, 우리는 Chain-of-Thought를 통해 에이전트의 감정적 추론 능력을 강화한다. 에이전트는 먼저 현재 추천 페이지를 인식하고 감정적 기억에서 이전 추천에 대한 만족도를 검색한다. 이후 에이전트는 현재 추천 페이지에 대한 만족도와 피로도를 자율적으로 표현한다. 이러한 통찰을 바탕으로, 개인화된 활동 특성과 결합하여 시스템을 종료할지 결정한다.
종료 후, 각 에이전트와 인터뷰를 실시하여 추천 시스템에 대한 평점과 전반적인 인상을 포착하고, 시스템 내 탐색 중 자신의 행동에 대한 명확한 설명을 제공한다. 이러한 인터뷰 스타일의 피드백은 전통적인 메트릭에서 얻은 통찰을 보강하며, 보다 풍부하고 인간이 이해할 수 있는 평가를 가능하게 한다.
Chain-of-Thought (CoT)
Chain-of-Thought는 인공지능 모델이 문제를 해결하거나 질문에 답할 때, 각 단계의 사고 과정을 명시적으로 설명하도록 하는 방법론이다. 이 접근법은 모델이 단순한 최종 답변을 제공하는 것이 아니라, 문제 해결 과정에서의 논리적 추론을 단계적으로 나열하게 함으로써 더 나은 이해와 투명성을 제공하는 데 목적이 있다.
Chain-of-Thought의 장점
- 논리적 추론 강화 : 모델이 문제를 해결하는 과정을 명시적으로 설명함으로써, 더 복잡한 문제를 해결할 수 있는 능력을 향상시킬 수 있다.
- 투명성 : 사용자는 모델이 어떻게 결론에 도달했는지를 이해할 수 있어, 결과에 대한 신뢰성을 높일 수 있다.
- 오류 분석 : 각 단계에서의 사고 과정을 명시함으로써, 모델의 오류를 더 쉽게 식별하고 개선할 수 있다.
Agent4Rec는 에이전트와 추천 환경 간의 상호작용을 시뮬레이션하며, 실제 시나리오와 유사한 환경 구축의 세 가지 주요 측면을 논의한다: 아이템 프로필 생성, 페이지 단위 추천 시나리오, 추천 알고리즘 설계.
Few-shot prompting
Few-shot prompting은 LLM이 새로운 작업을 수행할 때 몇 가지 예시를 제공하여 모델이 작업의 맥락과 요구 사항을 더 잘 이해하도록 돕는 기술이다. 이 방법은 모델이 더 정확하고 구조화된 출력을 생성하게 하는 데 매우 효과적이다.
- 작업 구성 요소
- 작업 (Instructions) : 모델이 수행해야 할 작업에 대한 설명
- 예시 (Examples) : 모델이 참고할 수 있는 예시들
- 입력 데이터 (Input data) : 분석할 데이터로, 선택적으로 활용됨
이 섹션에서는 생성 에이전트의 능력과 한계를 다양한 관점에서 분석한다. 여기에는 사용자 행동의 일치(사용자 취향, 평점 분포 및 사회적 특성 등)와 추천 환경의 평가(추천 전략 평가, 페이지 단위 추천 개선 및 인터뷰 사례 연구 등)가 포함된다.

Motivation
Results

Motivation
Results



Motivation
Setting
Results

: Average Viewing Ratio
: Average Number of Likes
: Average Ratio of Likes
: Average Number of Exit Pages
: Average User Satisfaction Score
에이전트는 알고리즘 기반 추천에 대해 무작위 및 인기 기반 추천보다 높은 만족도를 보인다.
LightGCN이 MF 및 MultVAE보다 다양한 평가 기준에서 우수한 성과를 보이며, 이는 LLM 기반 에이전트의 세밀한 평가 능력을 강조한다.
이러한 결과는 에이전트 기반 추천 시뮬레이터가 A/B 테스트에 대한 비용 효율적인 대안을 제공할 가능성을 제시한다.
Motivation
Setting
Results

Motivation
Results

Motivation
Setting
Results

Filter Bubble Effect (필터 버블 효과)
필터 버블 효과는 개인화된 추천 시스템이나 알고리즘이 사용자의 과거 행동, 선호, 검색 기록 등을 기반으로 정보를 제공할 때 발생하는 현상이다. 이 과정에서 사용자는 자신이 선호하는 정보나 콘텐츠만 지속적으로 접하게 되어, 다양한 의견이나 관점을 접할 기회를 잃게 된다.
즉, 사용자가 특정한 정보에만 노출되면서 그 정보의 범위가 좁아지고, 결과적으로 정보의 다양성이 감소하게 된다. 이로 인해 사용자는 자신의 기존 신념이나 의견을 강화하게 되고, 새로운 아이디어나 관점을 수용하기 어려워질 수 있다. 필터 버블 효과는 사회적, 정치적, 문화적 문제와 관련하여 심각한 영향을 미칠 수 있다.
Motivation
Setting
Results

DirectLiNGAM 알고리즘
DirectLiNGAM 알고리즘은 인과 관계를 추론하기 위한 방법 중 하나로, 관찰된 데이터를 기반으로 인과 그래프를 구축하는 데 사용된다.
- 선형 시스템 : DirectLiNGAM은 선형 인과 관계를 가정하며, 변수 간의 관계가 선형적으로 나타날 수 있다고 전제한다.
- 비순환 그래프 : 이 알고리즘은 가중치가 있는 유향 비순환 그래프(Directed Acyclic Graph, DAG)를 생성하여 변수 간의 인과 관계를 시각적으로 표현한다.
- 적용 가능성 : DirectLiNGAM은 주로 사회 과학, 생물학, 경제학 등 다양한 분야에서 인과 관계를 분석하는 데 활용된다.
- 효율성 : 이 알고리즘은 데이터의 인과 구조를 발견하는 데 상대적으로 빠르고 효율적으로 작동하며, 다양한 변수 간의 인과 관계를 명확히 이해하는 데 도움을 줍니다.