abstract
LLM을 recsys에 이용하기 위해 여러 시도들 있었음
recommender task 를 prompt 화 시켜서 in-context learning
단점) LLM 에 대한 training task 와 recommendation task 가 다르기 때문에 적절하지 않음, 효과 적음
TALLRec 이라는 tuning framework 를 제안해서
Introduction
최근 시도에서는 in-context learning 방식을 많이 시도함
또한 conventional 한 모델에서 나온 결과를 다시 LLM을 이용해 re-ranking 하는 방식도 많이 사용
→ 하지만 기존 방법에서 큰 향상은 없음
in-context learning 방식만 사용했을 때 한계를 크게 두가지로 봄
1) LLM을 훈련시키는 language processing task와 recommendation task 사이의 갭이 크다.
2) 위의 방식은 underlying recommender model 의 성능에 좌우된다 (실제 target item 을 item list 에 포함시킬 만큼의 성능이 안나옴)
instruction tuning 이 강한 generalization 능력을 가졌다는 점을 이용해서
1)instruction tuning process와 비슷하게 train data 를 구성하고
2)instruction tuning stage이후 LLM 을 train 한다.
LLM training은 많은 양의 훈련 데이터를 요구한다는 점에서 light-weight fine tuning 방식을 제안한다.
모델은 LLaMA-7B model 에 LoRA 아키텍처를 사용 (24GB gpu에 가동 가능)
contributions
2 TALLREC
Preliminary
robust generalization capability를 제공해 새로운 task 나 novel scenario 에서 높은 성능을 보인다는 장점이 있다.
(task instruction + task input) , task output 을 training data 쌍으로 훈련시킨다.
LLM 와 recsys를 어떻게 align 시킬 것인가..?
모델링 ) 제한된 user history interaction을 이용해 novel item에 대한 유저의 선호도를 반영하는 task
위의 instruction tuning 과정에 대응 시키면
task intstruction ↔ rec instruction
rec input → historical sequence + new item
rec output → prediction of LLM
2.2 TALLRec Framework
TALLRec Tuning Stages
두 가지 tuning states 로 구성 - instruction tuning + rec tuning
1) instruction tuning : LLM 의 일반화 능력을 높혀주는 common training 과정
→ Alpaca 논문에서 나온 방식을 차용
2) rec tuning : recommendatino task 를 위해 fine-tune 하는 과정
→ recommendation data를 instruction tuning data 형태로 전환
rec output 부분에서 reward design with llm 의 디자인 가능성을 옅보았음
위의 두가지 방식에 LoRA 방식으로 light-weight training
LLaMA 선정 이유 : best performing open-source + trainining data 도 public