

기존 llm을 이용한 추천시스템의 한계가 있음
1. in-context learning을 적용해서 추천 작업 수행
사용자와 아이템의 리뷰를 사용함.
리뷰: 사용자의 주관이기에 선호도에 유용하게 사용됨
리뷰에서 추출된 preference descriptions 목록인 사용자 및 아이템 프로필을 활용하여 의미 기반 이해를 도모하고, 이를 바탕으로 단계별 텍스트 추론을 수행함으로써 평점 예측과 논리적인 설명을 동시에 제공함.
-> 단계별 텍스트 추론을 위하여 성능이 뛰어난 LLM을 사용하면 좋지만, domain specific adaptation 문제와 computing source가 많이 든다는 단점이 있음
--> 본 연구에서는 knowledge distillatoin 을 사용함
1. teacher LLM (GPT-3.5)이 고품질의 text reasoning을 생성
2. student LLM (LLaMA3-8B)이 이를 학습하여 text resoning을 생성하고 이어서 평점을 예측하도록 fine-tuning
---> student LLM은 teacher LLM의 advanced reasoning capabilities를 가져서 user-iten interactoin과 preference를 더 잘 이해하게 되고, 계산비용을 감소시킴.
본 연구에서는 Exp3rt(EXPlainable Personalized Preference Reasoner for recommendaTion)을 제안
Exp3rt는 사용자와 아이템의 리뷰에서 파생한 prefence profile을 기반으로 평점 예측을 수행한다.
Exp3rt는 teacher-student distilation을 통해서 3step으로 fine-tuning된 student LLM임
선호 추출(Preference Extraction)
– 원시 리뷰에서 선호 정보를 추출해 선호 집합을 생성
프로필 구성(Profile Construction)
– 추출된 선호를 집계·요약해 사용자 및 아이템 프로필을 구축
추론 기반 평점 예측(Reasoning-enhanced Rating Prediction)
– 단계별 텍스트 추론을 통해 사용자의 평점을 예측
이러한 distilation step을 통하여 student LLM은 cost-efficient하면서도 뛰어난 추론 능력을 갖추게 됨.
추론 할 때 Exp3rt는 user/item profile(주관적 정보), item description(객관적 정보)를 함께 활용하여 선호를 종합적으로 파악함
-> 관측되지 않은 user-item 쌍에도 효과적으로 일반화 함
The main contributions
학습단계
teacher LLM(GPT-3.5)의 추론 능력을 3step으로 student LLM(Llama3.8B)으로 knowledge distillatoin함.
1. raw review로 부터 preference descriptions 추출
2. preference를 aggregate해서 user/item profile ㄱ성
3. textual reasoning을 기반으로 평점 예측
추론단계
user-item pair가 주어지면 3step을 수행하여 평점을 예측함
Exp3rt는 기존의 CF기반 모델들로 효율적으로 후보 item을 검색하고, 해당 후보를 reranking하여 Top-k 추천을 위한 item reranker로 사용가능 하다.
사용자 집합 U와 아이템 집합 I가 주어졌을 때, 사용자와 아이템 간 상호작용으로 구성된 데이터셋을 수집 (이 데이터셋은 사용자가 아이템에 남긴 평점(R)과 리뷰(V)를 포함)
평점 예측의 목적은, 관측된 평점 R과 리뷰 V를 바탕으로 사용자-아이템 쌍 (u, i)에 대한 평점 r_u,i을 예측하는 것 임.
rhat_u,i를 도출하여 관측되지 않은 사용자-아이템 쌍에 대해 예측할 수 있어야 하고, 사전 정의된 평점 스케일 S내에 있어야 함.
GPT-3.5와 같은 LLM은 뛰어난 추론 능력을 보여주지만, 인컨텍스트 학습만으로는 추천 작업에 한계가 있음. 본 연구에서는 이처럼 뛰어난 LLM의 강점을 보다 비용 효율적인 모델로 지식 증류함으로써, 핵심 능력은 유지하면서 계산 효율성을 최적화함.
우리는 GPT-3.5를 teacher LLM으로 사용함. student LLM은 LLaMA3-8B를 기반으로 하며, teacher LLM으로부터의 distillation을 통해 성능이 향상됨
지식 증류는 주로 두 단계로 구성됩니다
Step1.
raw review로 부터 핵심 선호 정보를 추촐하여 구조화된 형식으로 정리.
raw review는 noise가 껴있을 가능성이 높음 -> LLM이 이해하기 어려움
--> preference descriptions list 형태로 정리
preference description은 user의 취향을 like/dislike로 구분하여 표현
교사 LLM의 선호 추출 능력을 증류하기 위해, 입력 리뷰 vv에 대해 교사 LLM에 프롬프트를 입력해 “좋음/싫음” 정보를 추출하게 하여 선호 설명 p의 리스트를 생송 이로부터 학습 데이터셋 𝐷PE = {(𝑣, 𝑝)|𝑝 ∼ 𝑃teacher(·|𝑣,𝑇PE), 𝑣 ∈ V}를 생성합니다. 여기서 𝑇PE는 선호 추출 단계에 사용된 프롬프트임
Step2.
user Profile과 item profile s를 생성
각자 사용자 또는 아이템에 대한 포괄적인 주관적 선호 정보를 반영하 텍스트
Step1. 에서 추출한 preference description을 aggregate하고 요약해서 각 사용자 또는 아이템에 대한 구조화된 프로필로 구성함
-> 리뷰의 noise를 감소시키고 핵심 선호 및 특징을 명확하게 반영하여 더 효과적인 추론을 가능하게 함
𝑠𝑢는 V𝑢(사용자 리뷰 집합)로부터 추출된 서호 집합 𝑃𝑢 = {𝑝| (𝑣 ∈ V𝑢, 𝑝) ∈ 𝐷PE}을 통해 구성됨
𝑠𝑖도 동힐하게 V𝑖에서 추출한 𝑃𝑖 = {𝑝| (𝑣 ∈ V𝑖, 𝑝) ∈ 𝐷PE}를 기반으로 생성됨
Step3.
user-item 간 상호작용에 대한 평점 예측
step-by-step reasoning을 통해 예측 수행
사용자 및 아이템 프로필에는 주관적 정보가 포함
아이템 설명과 같은 객관적 정보도 함께 활용함
-> Exp3rt는 사용자 선호와 아이템 특성을 비교하고, 이들의 정합성을 기반으로 평점을 예측함.
--> Exp3rt는 개인화된 설명을 포함한 추론을 통해 평점을 도출하며, 추천의 논리적 근거도 제공함.
학습을 위해 teacher LLM이 생성한 텍스트 기바 설명과 평점을 활용한 데이터 생성, i.e., 𝐷PC = {(𝑃, 𝑠)|𝑠 ∼ 𝑃teacher(·|𝑃,𝑇PC)}
𝑇PC추론 생성을 위한 프롬프트