

CRSs(Conversatoinal Recommender Systems) 는 개인화된 경험을 향상시키기 위해 대화적 상호작용을 통한 개인화된 추천을 제공함.
-> 단순히 아이템 추천에 그치지 않고, 사용자와 의미 있는 대화를 주고받으며, 사용자의 선호도를 자연스럽고 친숙한 방식으로 이해함.
상호작용을 하며 CRSs는 두 가지 작업을 수행해야 함.
시스템의 성능을 자동으로 평가하는 것이 과제로 남아 있음
-> 평가 지표가 문맥에 민감한 사용자 선호도 및 만족도를 충분히 포착하지 못하고
-> 실제 사용자와의 상호작용을 통한 테스트는 비용이 많이 들고 시간이 오래걸림
실제 사용자가 CRS와 대화하는 상황을 시뮬레이션하여 보다 현실적인 테스트 환경을 조성하려는 시도가 이루어짐.
-> llm을 활용하여 사람과 같이 반응을 생성하게 해서 CRS와의 대화를 실제처럼 할 수 있게 함.
--> 인간의 행동을 잘 반영하는 신뢰할 수 있는 llm 기반 사용자 시뮬레이터 설계가 떠오름
따라서 본 논문에서는 이러한 문제를 해결하기 위하여 CRS의 개인 선호도 유도 및 추천 능력을 평가하기 위한 PEPPER(Protocol for Evaluating Personal Preference Elicitation and Recommendatoin)을 제안함
PEPPER는 목표 항목 기반 상호작용의 문제를 해결하기 위해, 실제 사용자 상호작용 이력과 리뷰에서 도출된 다양한 선호도를 기바으로 한 target-free 사용자 시뮬레이터를 도입 함.
이 시뮬레이터는 고정된 target item attribute 대신 리뷰 기반 사용자 프로필을 바탕으로 초기 행동을 개인화 함.
특히, 사용자가 CRS와의 대화를 통해 스스로 선호도를 점차 발견하도록 유도하고, 대화 중 나타나는 아이템들에 대해 일반적인 선호도를 방녕하여 암묵적인 선호도를 대화 맥락에 지속적으로 통합함으로써 사용자 시뮬레이션을 더욱 풍부하게 만듦.
-> 사용자가 자신의 선호도를 지속적으로 조정해나갈 수 있는 맥락 중심 시뮬레이션 환경은 CRS가 사용자의 선호를 능동적으로 유도해야마 정확하게 목표 지점에 도달 할 수 있게 함
추가적으로 본 논문에서는 선호도 유도 과정을 평가하기 위한 정량적, 정성적 측정 방법을 함께 제안하여 CRS의 능력을 보다 포괄적으로 평가하게 함
CRS의 선호도 유도 능력은 대화를 자연스럽고 흥미롭게 이끌며 사용자가 자신의 다양한 선호를 발견하고 만족스러운 경험에 도달하도록 안내하는 능력으로 정의함
-> 정량적 지표로 Preference Coverage를 제안하여 대화 도중 얼마나 효과적으로 사용자의 다양한 선호도를 끌어냈는지를 평가함
-> 정성적 지표로 score rubrics를 제안하여 선호도 유도 과정의 세 가지 측면 (능동성, 일관성, 개인화)를 평가하는 평가기준을 제안 함
--> 이러한 두 가지의 접근방식은 CRS의 기능적 성능과 섬세한 대화 능력도 포괄적으로 평가할 수 있도록 하고, CRS 평가를 위한 신뢰성 높은 프로토콜을 제공함.
CRS의 Preference elicitation과 recommendatoin ability를 포괄적으로 평가하기 위해 설계된 새로운 평가 프로토콜인 PEPPER를 소개 함
PEPPER는 두 가지 핵심 구성 요소를 포함 함
1. 실제 사용자 상호작용 이력과 리뷰에서 추출한 다양한 선호도를 반영한 target-free 사용자 시뮬레이터
2. CRS가 사용자 선호를 얼마나 잘 유도하고 정확한 추천을 제공하는지를 측정할 수 있는 선호도 유도 평가 지표
전체 프레임워크는 두 개의 생성 에이전트로 구성됨
target-free user simulator, CRS
두 에이전트는 대화 인터페이스와 아이템 인터페이스를 통해 상호작용 함
-> 대화 인터페이스는 사용자와 CRS 간의 커뮤니케이션을 연결
-> 아이템 인터페이스는 각 턴에서 tok-k개의 추천 아이템과 관련 메타데이터를 보여줌
--> 사용자가 실제로 추천 아이템에 대한 상세 정보를 확인할 수 있는 현실적인 환경 모사
기존 방법론과는 다르게, 사전 정의된 target item 없이, 실제 사용자 데이터에서 도출한 다양한 선호도를 기반으로 시뮬레이터를 설계함.
시뮬레이터는 대화 속에서 선호하는 것을 구체화 하며, 실제 사용자처럼 자연스럽게 자신의 관심사를 표현하도록 함
-> 두 가지 핵십요소를 도입하여 이를 수행함
1. General Preferences
2. Reflected Preferences
현실의 사용자는 명시적 선호도, 암묵적 평가, 기대치에 따라 아이템을 판단하는데, Reflected Preferences는 동적이고 적응적인 행동을 시뮬레이션 하는 기능을 함.
CRS의 선호도 유도 능력은 “CRS가 얼마나 능동적으로, 자연스럽고 흥미로운 대화를 통해 사용자로 하여금 다양한 선호도를 발견하고 만족스러운 경험에 도달하도록 유도하는가.”로 정의 됨
-> CRS의 선호도 유도 능력을 평가하기 위해 4가지 측면을 고려함
PC는 대화중 CRS가 얼마나 맣은 target item을 발견했는지 누적 평가함
PCₜ = (1 / |U|) ∑[𝑢∈𝑈] |(∪ₓ=1ᵗ Pᵤₓ) ∩ 𝑌(𝑢)| / |𝑌(𝑢)|
- PC는 t턴까지 예측된 아이템 집합과 실제 목표 아이템의 교집합 비율을 측정함
-> PCIR (Preference Coverage 증가율)도 정의
PCIRₜ = PCₜ − PCₜ₋₁- PCIR은 매 턴마다 새로 발견된 선호도의 비율을 나타내며, 대화 중 CRS가 얼마나 맣ㄴ은 새로운 선호를 유도했는지를 측정할 수 있음
GPT-4.0과 같은 LLM을 평가자로 활용함
llm의 평가기준