LLM 한테 이 (q,d)가 연관있는지 yes/no로 물어보는거보다는 적어도 (“Not Relevant”, “Somewhat Relevant”, “Highly Relevant”) 처럼 3개로 나눠서 답하게 물어보는 것이 zero-shot 셋팅에서 랭킹에 더 효율적이라는 내용. 정직한 제목이다.
생각해볼 점.
A perfect LLM assessor would also be a perfect LLM ranker, but when LLM capabilities are limited, the priorities of LLM assessor and LLM ranker development diverge.