Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agent

장한솔·2023년 5월 22일

파란색은 monoT5모델이다. ChatGPT(GPT-3.5)는 monoT5보다 조금은 낮은 점수를 보이는데, GPT-4의 경우 rerank에서 점수적인 이점을 보여주고 있다.

이 논문은 이런 질문들을 나름의 방식으로 해결하고자 했다.

먼저 reranking을 하기 위해서 instruction 이용해 비교해보았다.

1) Query generation

2) Relevance generation

3) Permutation generation

이렇게 세 가지 방법을 가지고 실험을 해보았을 때에 가장 마지막인 permutation generation이 셋 중에 가장 효과적인 것임을 아래에서 확인을 했다.

Results

위에 올라온 $s_i$ 값을 기준으로 순서를 매긴 것으로 점수를 내었을 때에 Permutation generation의 경우 가장 점수가 높았다.
BEIR 데이터셋으로 확인했을 때에는 GPT3.5를 가지고 permutation generation을 진행한 후에 GPT4를 이용해 추가로 더 rerank한 경우 점수가 좋았다.
다양한 언어가 포함된 데이터셋인 Mr.TyDi도 위와 같이 GPT3.5를 가지고 rerank 진행 후 GPT4를 이용해서 추가로 rerank를 진행했을 때에 평균 점수가 더 높다.
Abalation
top N : N이 클수록 좋다.
BM25의 순서를 무시하거나, 반대로 해서 permutation generation을 하면 안된다.
GPT3.5를 가지고 여러번 rerank 하는 것보다 GPT4를 가지고 한번 더 하는 것이 낫다.