[Abstract 요약] Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
- Artificial Hivemind: LLM 모델들이 “open-ended 질문들”(답이 정해져 있지 않은 질문)에 대해 겉보기에 다양해보이지만 의미적으로는 유사한 답변을 내놓는 현상
→ 집단 지성처럼 작동
- 논문에서는 이런 현상이 일어나는 원인에 대해서 원래 사용하던 벤치마크와 보상모델이 의미적 다양성을 고려하지 않는 평가/학습 구조를 갖고 있기 때문이라고 말한다
→ RLHF (인간 피드백을 통한 강화학습)이 모험을 하지 않고, 인간이 선호할 만한 답변에 높은 점수를 주도록 설계되어 있어 가장 무난한 답변으로 수렴하게 됨
- Infinity chat: 하나의 open-ended 질문을 여러 번 질문했을 때 답변들의 의미적 분포가 얼마나 한 점으로 수렴하는지 측정하는 벤치마크
- 이런 벤치마크를 통해서 LLM이 얼마나 의미적으로 다른 생각을 할 수 있는가를 알 수 있다
- open-ended 질문에 대한 답변의 의미적 다양성을 확보하기 위해서는 원래의 벤치마크와 보상모델들을 변경해야 한다.
- 이 논문에서는 Open-Ended Homogeneity라는 현상의 존재를 보여줬지만 왜 그런지 + 어떻게 해결할 지는 말하지 않음