Is ChatGPT a Good Recommender? A Preliminary Study

이두현·2024년 3월 17일
0

abstract

recsys 분야에서 chatgpt의 application 이 충분히 연구되지 않았으며 이 논문에서는 general purpose recommendation model로 사용해보겠다

prompt 만 사용하고 fine tuning 과정은 거치지 않는다

데이터셋 : amazon beauty

intro

traditional한 방식은 task specific 한 훈련으로 generalization ability 가 떨어진다.

이런 문제를 해결하기 위해 pre-trained LM 을 recsys 에 도입한다.

유저의 interaction data를 텍스트 형태로 바꾸는 방법에 대한 논문

Language Models as Recommender Systems: Evaluations and Limitations

아직 chatGPT 가 classical recommendation system에서 잘 동작할 수 있는지는 탐구 되지 않아 연구를 진행

chatGPT 를 general purpose recommendation model 로 만들어 5개의 task에 대해 성능을 측정

  • rate prediction
  • sequential recommendation
  • direct recommendation
  • explanation recommendation
  • review summarization

only prompt 만 사용 + user-specific 정보 추가 위해서 few-shot prompting 사용

결과) accuracy 측면에서 rating 은 잘하지만 sequential + direct recommendation task 에서는 잘 못함

→ good news!

Thus, there is still significant potential for improvement in future research by incorporating
more relevant training data and techniques. We believe that our
benchmark not only sheds light on ChatGPT’s recommendation capabilities but also provides a valuable starting point for researchers
to better understand the advantages and shortcomings of ChatGPT in recommendation tasks. Moreover, we hope that our study
can inspire researchers to design new methods that leverage the
strengths of language models like ChatGPT to improve recommendation performance, and contribute to the advancement of the
recommendation systems field.

요약) LLM 이 좋은 성능을 발휘하진 못하지만 이는 어떤 recommender data에 대해서도 추가적인 훈련이 이뤄지지 않았기 때문이며 chatGPT 의 장단점을 파악해서 성능을 올릴 수 있는 좋은 계기가 될 것이다.

  • NLP 처럼 LLM 에 대해 recsys 용 downstream task 훈련법을 적용할 수 있음
  • RL의 text based environment에서 처럼(?) 훈련법을 적용

2.2 Language Model for Recommendation

Language Models as Recommender Systems: Evaluations and Limitations

P5 논문 읽어볼만 한듯

3 RECOMMENDATION WITH CHATGPT

간단!

  1. task-specific prompt 생성
  2. chatGPT 가 결과 도출
  3. refinement 모듈 통과 후 결과를 유저에게 제공

3.1 Task-specific Prompt Construction

task description + behavior injection + format indicator 로 구성

sequential recommendation 의 경우 prompt 형식

추가적으로

1) interaction 기록에 기반한 direct prediction

2) 하나의 item 만 positive 이며 여러 item list 가 주어졌을 때 선택하게 만드는 형식

3) 특정 item 이 다음에 interact 한 상품일지 판단하는 형식

4 EVALUATION

experiment setup )

sequential rec에 대해서는 historical item을 순서대로 넣고 chatgpt 가 다음에 올 item 제목을 예측하게 한 후 BERT를 사용해 all item 의 title 과 vector 곱해 가장 가까운 아이템을 선정

결과와 한계

이 결말이 가장 중요한 것 같음!

zero-shot 인 경우 형편없음, few-shot 인 경우도 소수의 metric 에 대해서만 baseline을 넘음

이유분석)

  1. prompt 에서 item 제목만 사용하였는데 이는 chatGPT 가 item transition relationship을 파악하는 것보다는 semantic similarity에 집중하는 결과를 초래할 수 있다.
  2. prompt 길이제한으로 인해 item set을 모두 prompt에 추가하는 것은 실질적으로 불가능한데 이는 chatGPT 가 기존에 존재하는 아이템 의외의 아이템을 만들어버리는 오류를 이끈다. 이러한 문제를 semantic similarity matching을 통해 기존에 존재하는 아이템과 매치시킬 수는 있지만 큰 성능 증가는 없었다.
for sequential recommendation tasks, merely employing ChatGPT is not a suitable choice.
Further exploration is needed to introduce more guidance and constraints to help ChatGPT accurately capture historical interests and
make reasonable recommendations within a limited scope.

요약) sequential recommender 에 대해서는 chatGPT를 그냥 도입하는 것은 적합하지 않으며

chatGPT가 historical interest와 reasonble 결정을 하기 위해서 추가적인 방식을 도입해야 한다.

profile
0100101

0개의 댓글

관련 채용 정보