[논문 리뷰] Is ChatGPT a Good Recommender? A Preliminary Study

Woong·2023년 8월 30일
0

컨퍼런스/세미나

목록 보기
11/12

요약

  • 5가지 추천 시나리오에 대해 프롬프트 세트 설계, 성능 평가

    • 등급 예측 (rating prediction)
    • 순차 추천(sequential recommendation)
    • 직접 추천(direct recommendation)
    • 설명 생성 (explanation generation)
    • 리뷰 요약 (review summarization)
  • ChatGPT 를 미세조정하지 않고 프롬프트만 의존하여 추천 작업을 자연어 작업으로 변환

    • ChatGPT 가 추천 영역에서 효과적인지 성능 시험하는 것이 논문 주제

프롬프트 구성

  • ChatGPT 를 활용한 추천 작업 구성

      1. 특정 characteristics 에 기반한 서로 다른 프롬프트를 구성
      1. 프롬프트를 ChatGPT 의 입력으로 이용, 프롬프트에 지정된 요구사항에 따라 추천 결과 생성
      1. refine module 에서 체크하고 refine (포맷 체크, 성공 여부 체크)
      1. 최종 추천 결과를 사용자에게 리턴
  • 서로 다른 task 에 맞춘(tailored) 프롬프트를 디자인하여 ChatGPT 의 추천 능력(capability) 를 조사

    • 각 프롬프트는 task description, behavior injection, format indicator(표시자)로 구성
    • task description : 추천 작업을 자연어 처리 작업에 맞게 조정하는데 활용
    • behavior injection : user-item 상호 작용을 통합하는(incorporates) few-shot 프롬프트의 영향을 평가하도록 디자인
      • -> 사용자 선호, 필요를 알 수 있도록(preferences and needs)
      • few-shot prompt : 모델에 원하는 몇가지 예제 (shots) 를 제공하는 방식
        • few-show 이면 2개 이상, one-shot 이면 1개 예제
      • zero-shot prompt : 모델에 예제(shots) 제공 없이 프롬프트를 입력하고 출력을 받는 방식
    • format indicator : 출력 형식을 제약 (결과 평가 용이하도록)
  • Rating Prediction (등급 예측)

    • 특정 item 에 부여할 등급 예측
    • 추천 개인화, 전반적인 사용자 경험 향상에 필수적
    • 딥러닝과 행렬 분해 기법 등을 이용
      • Matrix factorization : User와 Item 간의 평가 정보를 나타내는 Rating Matrix를 User Latent Matrix와 Item Latent Matrix로 분해하는 기법. 추천 시스템의 희소성 문제(sparsity problem) 에 효과적
  • Sequential Recommendation

    • 과거의 순차적 행동(sequential behavior) 을 기반으로 사용자의 다음 item, 행동(action)을 예측
    • 논문에선 3가지 프롬프트 형식 고안 (그림 2)
        1. 상호 작용 history에 기초하여 사용자의 다음 item을 직접 예측
        1. 상호 작용 history에 기초한 후보 목록에서 다음 item 을 선택할 확률
        1. 상호 작용 history에 기초하여 특정 item이 사용자가 상호작용할 다음 item이 될것인지 예측
  • Direct Recommendation

    • explicit feedback recommendation (명시적 피드백 추천), rating-based recommendation (등급 기반 추천) 으로도 알려져있음
    • 등급(ratings), 리뷰 등 사용자의 명시적 피드백에 의존
      • 사용자의 명시적 선호도를 나타내므로 보다 개인화된 추천 제공
      • 암시적 피드백은 사용자 행동, 구매 이력 등
    • 잠재적 후보 목록에서 가장 적합한 item을 선택하는 item 선택 프롬프트 개발 (그림 2)
  • Explanation Generation

    • (사용자 or 시스템 설계자에게 설명할 목적으로) 추천하는 이유에 대한 설명을 제공
      • 추천의 투명성, 설득력, 효과성, 신뢰성, 사용자 만족도, 알고리즘 진단, 디버깅, refine 용이성 등
      • ChatGPT 에 선호도를 정당화하는 설명을 생성할 것을 요청 (그림 3)
        • 힌트, 별 등급 등
  • Review Summarization

    • zero/few shots 프롬프트로 리뷰 요약 생성 (그림 3)

결과 refine

  • ChatGPT 는 동일한 입력에 대해 랜덤 요소를 넣어 다른 응답을 생성 (다양성 목적)
    • 이 랜덤 요소 때문에 추천 item 평가에 방해가 될 수 있음
    • format indicator 로 어느정도 완화되지만, 이를 개선하기 위해 refine 모듈 고안
      • format 검사를 통과해야 최종 output 으로 사용. 통과하지 못하면 미리 정의된 규칙으로 수정후 사용
        • 수정해서도 통과 안되면 ChatGPT 로 재추천

성능 시험

  • 평가 기준

    • rating prediction 은 RMSE, MAE
      • MAE : Mean Absolute Error (평균 제곱 오차)
      • RMSE : Root Mean Square Error (평균 제곱근 편차)
    • sequential recommendation, direct recommendation 은 HR@K(Top-k Hit Ratio), NDCG@K (Top-K Normalized Discounted Cumulative Gain)
    • explanation generation, review summarization 은 BLEU-n (n-gram Bilingual Evaluation Understudy), ROUGE-n (ngram- Recall-Roienteed Understudy for Gising Evaluation) + 사람이 직접 평가
  • 등급 예측

    • few-shots prompt 에서 MAE, RMSE 측면에서 MF, MLP 모델 능가
      • MF : Matrix Factorization. user vector 와 item vector 의 내적으로 모델링하는 방법. 선형적인 예측만 가능
      • MLP : Multi-Layer Perceptron. 비선형적 예측 가능
  • sequential Recommendation

    • zero-shots prompt 에서 급격히 성능 저하
    • few-shots prompt 에서 기존 추천 알고리즘 대비 성능 향상
        1. 모든 item 이 제목(titles) 으로 표현되는데 item간 전이 관계(transition relationship) 보다 의미론적 유사성(semantic similarity)에 집중
        1. 프롬프트 길이 제약 때문에 ChatGPT 에 모든 item 입력 불가
        • 예측하기 위한 제약 조건이 부족(lacking constraints) -> 데이터셋에 없는 제목을 예측
        • 예측된 제목을 의미론적으로 유사한 데이터셋의 제목에 매칭할 수 있으나 이득이 크지 않음
    • sequential recommendation 에서는 ChatGPT 부적합하다는 결론
  • direct recommendation

    • zero-shots prompts 를 사용할 경우 급격히 성능 저하
      • item pool 에서 사용자에게 가장 적합한 항목을 선택해야하는데, 정보가 부족하여 무작위 추천한 것으로 봄
    • few-shots prompts 에서는 사용자의 선호도를 제공하여 성능은 일부 올라갔으나 여전히 부족
    • item pool 여부 및 구성에 따라 direct recommendation 추천 성능에 영향이 큰 편
      • ChatGPT 의 경우 item pool 내 위치에 따른 편향 + 시작에 가까울수록 중요하게 간주 -> 추천 가능성 상승
  • explanation generation

    • metric 관점에서는 P5 모델의 성능이 우수하나, P5는 텍스트 구조와 문법에 치중한 모델이므로 인간 평가 수행
      • (설계 목표와 적용 시나리오가 서로 다른 언어 모델이라서.)
    • (인간 평가) (표 6) ChatGPT 가 전반적으로 명확하고 합리적이라는 평가
      • ChatGPT few-shots prompts 39.6%, ChatGPT zero-shots 37.7%, Ground-Truth 14.2%, P5 8.5%
      • P5 에서 요약한 결과가 지나치게 일반적이고 유용한 키워드가 없는 반면, ChatGPT는 리뷰 내용을 잘 요약
  • review summarization

    • 위와 동일하게 metric 관점에선 P5에 미치지 못하는 결과
      • P5가 일부 키워드를 추출했으나 리뷰 전체의 정보를 무시했으나, ChatGPT 는 리뷰 내용을 보다 의미있게 요약
      • (인간 평가) P5 가 item 자체에 대한 리뷰 설명을 사용자 선호도로 추출하여 정확하지 않음.
      • 인간 평가에서 ChatGPT 결과가 우수하다는 평가 62%로 1위, Ground-Truth 38%, P5 0%

0개의 댓글