https://arxiv.org/pdf/2408.09439
알리바바에서는 꾸준히 Relevance modeling 관련한 페이퍼를 내놓고 있는데 LLM을 본격적으로 다룬 페이퍼는 이게 처음인 것 같다.
Relevance label이 있으면 당연히 LLM을 가지고 supervised learning 할 수 있는건데
사실 첫번째는 그러려니 하는데 두번째 같은 테크닉으로 성능차이를 많이 낼 수 있는줄은 몰랐다. 페이퍼에서는 자세히 설명을 해주지 않아서 인용된 페이퍼를 보고 더 공부를 해봐야겠다.
서빙 관해서는 95% 트래픽 정도는 LLM을 미리 돌려서 계산한 값을 쓰고 (pretrained GLM 10B) 나머지 5%는 2B 모델을 실시간으로 돌린다고 한다. 요구사항을 모르겠지만 2B 모델을 실시간으로 계산한다고 트래픽이 많이 늘지는 않았다고 한다.
요약은 여기까지이고...prompting 테크닉들은 복잡한 문제를 풀 때 쓰는 줄로 알았는데 이렇게 단순한 binary classification에도 도움이 되는 것을 보니 역시 흘려보낼 것은 없다고 느꼈다. (대신에 영어/중국어처럼 기본적으로 추론 능력이 있어야 뽑아먹든 말든하지 않을까 하는 생각도 같이 들었다)