
벤치마크란 특정 태스크에 대한 성능을 평가하기 위한 데이터셋을 일컫습니다.
다른 연구들과의 비교를 위한 기준이 되기도 합니다.
GLUE(General Language Understanding Evaluation)는 다양한 NLU, 즉 언어 이해 능력을 평가하기 위한 성능지표입니다.
일반적인 인간의 언어 이해 능력과 비교하기 위해 유사한 여러 태스크를 준비하여 평가합니다. QA, Sentiment Analysis, Textual Entailment 등이 포함됩니다.
GLUE에서는 9개의 태스크를 제공합니다.
CoLA
The Corpus of Linguistic Acceptability로 언어 이론 관련 책이나 기사에서 가져온 데이터
이진 분류 문제이고, 평가 지표는 Matthews correlation coefficient를 사용
cf) Matthews correlation coefficient(Phi correlation coefficient)
SST-2
MRPC
QQP
STS-B
The Semantic Textual Similarity Benchmark로 뉴스 헤드라인, 이미지 및 비디오 캡셔 등에서 가져온 데이터
인간이 문장 쌍에 대한 유사도를 1부터 5까지 라벨링하였고, 모델을 통해서 이 값을 예측함
Pearson 상관계수와 Spearman 상관계수를 지표로 사용
cf) Pearson correlation coefficient
두 변수 사이 상관관계가 선형일 때 사용 가능.
편차 = 평균과 예측값 간의 차이 + 예측값과 실제 값의 차이
=> 전체 편차 내에서 예측값과 평균 간의 차이가 차지하는 비율
(x, y = 각 변수에 속하는 변량, n = 총 변량의 개수, z = 표준점수)
x, y를 z점수로 변환하면 다음과 같음
=> 보통 제곱한 값인 결정계수를 많이 사용
cf) Spearman correlation coefficient
MNLI
The Multi-Genre Natural Language Corpus의 줄임말로 문장 쌍에 textual entailment이 라벨링 되어 있음
전제(premise)와 가설(hypothesis) 쌍으로 문장 구성, 해당 문장 간의 관계를 세 가지로 예측
entailment (가설이 전제를 함의를 수반함)
contradiction (가설과 전제가 모순)
neutral (entailment와 contradiction 모두 아닐 때)
QNLI
RTE
WNLI