TALLRec: An Effective and Efficient Tuning Framework to Align Large Language Model with Recommendation

이두현·2024년 3월 17일
0

abstract

LLM을 recsys에 이용하기 위해 여러 시도들 있었음

recommender task 를 prompt 화 시켜서 in-context learning

단점) LLM 에 대한 training task 와 recommendation task 가 다르기 때문에 적절하지 않음, 효과 적음

TALLRec 이라는 tuning framework 를 제안해서

Introduction

최근 시도에서는 in-context learning 방식을 많이 시도함

또한 conventional 한 모델에서 나온 결과를 다시 LLM을 이용해 re-ranking 하는 방식도 많이 사용

→ 하지만 기존 방법에서 큰 향상은 없음

in-context learning 방식만 사용했을 때 한계를 크게 두가지로 봄

1) LLM을 훈련시키는 language processing task와 recommendation task 사이의 갭이 크다.

2) 위의 방식은 underlying recommender model 의 성능에 좌우된다 (실제 target item 을 item list 에 포함시킬 만큼의 성능이 안나옴)

instruction tuning 이 강한 generalization 능력을 가졌다는 점을 이용해서

1)instruction tuning process와 비슷하게 train data 를 구성하고

2)instruction tuning stage이후 LLM 을 train 한다.

LLM training은 많은 양의 훈련 데이터를 요구한다는 점에서 light-weight fine tuning 방식을 제안한다.

모델은 LLaMA-7B model 에 LoRA 아키텍처를 사용 (24GB gpu에 가동 가능)

contributions

  • in-context learning 방식의 한계를 지적 + 이를 instruction tuning 으로 풀어나감
  • 적은 tuning sample과 low cost GPU로 실험을 진행

2 TALLREC

Preliminary

  1. instruction tuning

robust generalization capability를 제공해 새로운 task 나 novel scenario 에서 높은 성능을 보인다는 장점이 있다.

  • task instruction : task 에 대한 정의와 상세한 solution 을 제시
  • task input
  • task output

(task instruction + task input) , task output 을 training data 쌍으로 훈련시킨다.

  1. task formulation

LLM 와 recsys를 어떻게 align 시킬 것인가..?

모델링 ) 제한된 user history interaction을 이용해 novel item에 대한 유저의 선호도를 반영하는 task

위의 instruction tuning 과정에 대응 시키면

task intstruction ↔ rec instruction

rec input → historical sequence + new item

rec output → prediction of LLM

2.2 TALLRec Framework

TALLRec Tuning Stages

두 가지 tuning states 로 구성 - instruction tuning + rec tuning

1) instruction tuning : LLM 의 일반화 능력을 높혀주는 common training 과정

→ Alpaca 논문에서 나온 방식을 차용

2) rec tuning : recommendatino task 를 위해 fine-tune 하는 과정

→ recommendation data를 instruction tuning data 형태로 전환

  • rec instruction : 유저가 taret item 에 대해 이전 like/dislike 정보를 바탕으로 yes/no로 판단하도록 요구
  • rec input : 선호된 item list + 비선호된 item list + 미래 item
  • rec output : yes/no 형태로 결과 반환

rec output 부분에서 reward design with llm 의 디자인 가능성을 옅보았음

위의 두가지 방식에 LoRA 방식으로 light-weight training

LLaMA 선정 이유 : best performing open-source + trainining data 도 public

profile
0100101

0개의 댓글

관련 채용 정보