G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment
2023.05
추가 자료
Reference-based metrics란?
NLG가 생성한 텍스트의 품질을 평가할 때 미리 준비된 인간 작성의 정답(reference)와 비교하는 방법을 의미한다.
1. BLEU
- 주로 기계 번역 평가에 사용됨
- 생성된 텍스트와 참조 텍스트 간의 n-gram(단어나 단어 조합) 일치를 측정
- 단어 일치율 + 문장 내의 어순 고려
- ROUGE
- 주로 텍스트 요약 평가에 사용됨
- 생성된 요약문과 참조 요약문 간의 n-gram, 단어의 길이, 문장 일치 등을 비교

프레임워크의 단계
1. LLM에 입력
G-Eval의 세 가지 구성요소
1) 평가 태스크의 정의와 원하는 평가 기준을 포함하는 프롬프트
2) LLM으로 생성한, 구체적인 평가 단계를 설명하는 CoT
3) return token의 확률에 기반한 점수 계산 함수
예를 들어, 텍스트 요약 태스크에서는 프롬프트(1번)가 다음과 같이 주어질 것이다.
You will be given one summary written for a news article. Your task is to rate the summary on one metric.
Please make sure you read and understand these instructions carefully. Please keep this document open while reviewing, and refer to it as needed.
Evaluation Criteria:
Coherence (1-5) - the collective quality of all sentences. We align this dimension with the DUC quality question of structure and coherence whereby ”the summary should be well-structured and well-organized. The summary should not just be a heap of related information, but should build from sentence to sentence to a coherent body of information about a topic.”
LLM이 더 논리적인 평가 과정을 거칠 수 있도록 하는 중간 사고 단계
프롬프트에 아래의 내용(예시)을 추가해서 LLM이 자동으로 CoT를 생성할 수 있게 한다.
Evaluation Steps:
1. Read the news article carefully and identify the main topic and key points.
2. Read the summary and compare it to the news article. Check if the summary covers the main topic and key points of the news article, and if it presents them in a clear and logical order.
3. Assign a score for coherence on a scale of 1 to 5, where 1 is the lowest and 5 is the high
목표 텍스트를 생성할 조건부 확률을 평가 지표를 사용하는 기존의 GPTScore과 달리, G-Eval은 직접적인 평가 방식을 사용한다.
채점 함수는 프롬프트, 자동 생성된 CoT, 입력 맥락, 평가할 대상 텍스트와 함께 LLM을 호출한다.
예를 들어, 텍스트 요약본의 일관성을 평가할 때 프롬프트, CoT, 뉴스 기사, 요약문을 concatenate 후 각 평가 항목별로 1-5점을 출력하도록 LLM을 호출할 것이다.
채점 함수의 두 가지 이슈:
1. 일부 평가 작업에서 특정 점수가 지나치게 자주 등장하는 경향이 있다(예: 1~5점 척도에서 3점이 많음). 이로 인해 점수 분포의 분산이 낮아지고, 인간 평가와의 상관성이 떨어질 수 있다.
2. LLM은 일반적으로 정수 점수만 출력하는 경향이 있으며, 프롬프트에서 소수점을 포함한 값을 요청하더라도 이를 잘 따르지 않는다. 이로 인해 생성된 텍스트 간의 미묘한 차이를 반영하지 못하는 동점(tie) 문제가 발생할 수 있다.
이를 해결하기 위해, 연구진은 LLM이 출력하는 토큰의 확률을 활용하여 점수를 정규화하고, 확률 가중치를 주는 방식을 제안했다.
: 점수별 확률
SummEval, Topical-Chat, QAGS 세 가지 벤치마크 데이터에 대해 요약/대화 생성 태스크 평가를 진행하였다.
특이사항
요약문 평가에 사용되는 벤치마크 데이터셋

지식을 필요로 하는 대화 응답 생성 평가에 사용되는 벤치마크 데이터셋

요약 태스크에서 hallucination 평가에 사용되는 벤치마크 데이터셋


G-Eval-4 에게 사람의 요약과 GPT-3.5의 요약의 품질을 비교하라고 했을 때, 항상 GPT-3.5의 요약을 선호하는 결과를 보였다. (= 편향이 있다)
추정 가능한 이유
1. 고품질의 NLG 아웃풋은 애초에 평가하기가 어렵다
2. 모델이 생성과 평가에서 같은 평가 기준을 공유할 수 있다
SummEval 벤치마크 평가 결과 보면 CoT 포함 여부에 따라 비교했을 때 CoT가 포함된 경우 훨씬 높은 성능을 보임. 즉 CoT 효과 있다.
SummEval 벤치마크 평가 결과 보면 확률 정규화 여부에 따라 비교했을 때
SummEval, QAGS 벤치마크에서 모델 크기에 따라 비교했을 때 G-Eval-4가 G-Eval-3.5보다 더 높은 상관관계를 보인다.
Topical-Chat 벤치마크의 Engagingness와 Groundedness에서는 예외 발생: 모델 크기는 Consistency, Relevance에 있어 더 큰 효과
LLM-based metrics는 기존의 reference-based/free metrics보다 인간 평가와의 상관관계가 높다. 특히 dialogue response generation(대화 응답 생성) 개방형, 창의적인 NLG 작업에서 우수하다.
prompt와 instruction에 민감하다. CoT를 사용하면 더 많은 context와 guidance를 제공받아 성능이 향상될 수 있다.
기존의 이산적(discrete) 점수를 해당 토큰의 확률을 활용하여 세밀한 연속적 점수(fine-grained continuous)로 제공 가능: 더 정밀한 결과 표현
LLM이 생성한 텍스트를 선호하는 bias의 가능성: self-reinforcement의 위험성 내포