Beyond Yes and No: Improving Zero-Shot LLM Rankers via Scoring Fine-Grained Relevance Labels

zxzl·2024년 1월 14일
0

LLM 한테 이 (q,d)가 연관있는지 yes/no로 물어보는거보다는 적어도 (“Not Relevant”, “Somewhat Relevant”, “Highly Relevant”) 처럼 3개로 나눠서 답하게 물어보는 것이 zero-shot 셋팅에서 랭킹에 더 효율적이라는 내용. 정직한 제목이다.

생각해볼 점.

  • LLM에 zero-shot prompt를 날릴 때 말고도, 그냥 라벨 만들 때도 binary는 다소 좀 부족하다는 페이퍼를 몇 개 봤는데 이거랑 잘 align이 된다
  • 저자 분들은 LLM assessor 랑 LLM ranker랑 분명히 선을 그으신다. 나한테 당장 더 궁금한 것은 LLM assessor인데 LLM assessor를 어떻게 '잘' 만드는지도 좀 찾아봐야겠다.

    A perfect LLM assessor would also be a perfect LLM ranker, but when LLM capabilities are limited, the priorities of LLM assessor and LLM ranker development diverge.

profile
노션 대용 velog

0개의 댓글