Reason to read: What is uncertainty in LLM? / How can it be expressed and evaluated? (measured.) / What is the idea of mitigating problems relating uncertainty notions
본 논문은 여러 LLM들을 가지고 Qeustion-answering 등의 태스크에서 모델이 얼마나 답변시에 uncertainty 를 표현하는지, 이에 대해 investigate 한 논문이다. 결론부터 말하자면 본 논문은 LLM이 'reluctant to express uncertainties when answering question even when they produce incorrect response', 심지어는 틀린 답을 내놓을 때도 uncertainties 를 표현하기 꺼려했다고한다. 그리고 이에 대한 원인을 찾기 위해 post training 시에 사용된 데이터셋을 조사하고, 'human are biased against text with uncertainty' 를 밝혀냈다. 인간과 데이터가 biased 되었으니 이를 통한 training 과정에서 모델도 그런 경향을 따르는 것이란 결론. 자세히 보자.
따라서 본 연구는, 어떻게 LMs (LLM도 포함이지만 파라미터가 작은 모델까지도 비교.) 가 uncertainties 를 표현하는지 조사했다. 이는 multiple choice questions 상황에서 epistemic markers 도 같이 달라고 프롬프트로 요청함으로써 가능했으며..
다른 섹션에서 model 의 overconfidence 가 어디서 왔는지 조사했다. 이는 base model, instruction-tuned model, reward model 로 각 모델의 특성을 다르게 해 비교했는데, 결과적으로 여기에 RLHF 가 큰 영향을 미친 요인으로 분석됨. -> human annotators are biased against expressions of uncertainty!
언어학의 개념에서 화자의 스탠스를 표시하는 개념으로 epistemic markers 가 있는데, 이들은 다음으로 구성된다.
기존 머신러닝에서 관련한 접근으론 model calibation 을 계산하는 방법이 있었다. ECE 라 불리는 것으로, 모델에 의해 부여된 confidence value 와 함께 model accuracy 를 향상 시키는 것.
최근에서는 조금 더 comprehensive understanding of how humans interpret LM-generated verbal epistemic markers 에 대한 논의가 있고, 이 논문도 역시나 이에 맞게
이 질문에 답하기 위해 GPT, LLaMA-2, Claude 모델이 얼마나 uncertainties 를 표현하는지 QA contex 에서 조사했다.
의 3가지 프롬프트를 추가로 구성. 아래 figure 는 1) EpiM 만 한 경우.
결과는 이와 같다. 프롬프트를 주고 각 답변에, epi.markers 가 포함된 비율, strengtheners 또는 weakners 가 포함된 비율을 분석했다.
fidings 는 다음과 같다.
결론: models struggle to appropriately use epistemic markers
모델은 uncertainties 를 표현하기 꺼려하고, 오히려 certaintiy 에 대한 overuse 가 있다. 이런 문제는 existing problems of human overeliance on AI prediction 문제를 가중시킬 수 있음.
이를 알아보기 위해 base model, supervised fine-tune (SFT) 모델, RLHF 모델을 비교.
같음 모델 아키텍쳐에 대해 davinci (base), text-davinci-002 (SFT), text-davinci-003 (RLHF) 모델을 비교. LLaMa-2 (base) vs. LLaMA-2 Chat (SFT+RLHF)
결과는 아래와 같다.
다른 실험도 하나 더 했다. reward model 을 훈련하기 위한 데이터셋을 가져다놓고, (OpenAI’s “WebGPT comparison” and “Summarize with Feedback”, Dahoa’s “Synthetic Instruct GPT Pairwise” dataset, and Anthropic’s “Helpful and Harmless” dataset) human annotators 들에게 이 데이터셋에 담긴 문장 중 어떤 것이 더 선호되는지 테스트. (문장들은 strengtheners and weakners 포함.)
결론은 Human Raters are biased against uncertainty. 였음.