GLUE(General Language Understatding Evaluation Benchmark)

애늙은이·2025년 4월 24일

✔ Benchmark?

벤치마크란 특정 태스크에 대한 성능을 평가하기 위한 데이터셋을 일컫습니다.
다른 연구들과의 비교를 위한 기준이 되기도 합니다.

✔ GLUE?

GLUE(General Language Understanding Evaluation)는 다양한 NLU, 즉 언어 이해 능력을 평가하기 위한 성능지표입니다.
일반적인 인간의 언어 이해 능력과 비교하기 위해 유사한 여러 태스크를 준비하여 평가합니다. QA, Sentiment Analysis, Textual Entailment 등이 포함됩니다.

✔ GLUE Tasks

GLUE에서는 9개의 태스크를 제공합니다.
image

  • CoLA

    • The Corpus of Linguistic Acceptability로 언어 이론 관련 책이나 기사에서 가져온 데이터

    • 이진 분류 문제이고, 평가 지표는 Matthews correlation coefficient를 사용

      cf) Matthews correlation coefficient(Phi correlation coefficient)

      image

      • -1과 1 사이의 값을 가지며, 1에 가까울수록 비슷함.
  • SST-2

    • The Stanford Sentiment Treebank로 긍/부정 라벨링이 붙어 있는 데이터
    • 감성 분석으로 문장을 긍/부정으로 이진 분류함
  • MRPC

    • The Microsoft Research Paraphrase Corpus로 문장 쌍과 그에 대한 라벨로 이루어짐
    • 문장 쌍이 의미론적으로 동일한지 판별하여 이진분류
    • 라벨 불균형으로 인해 F1-Score와 Accuracy 두 가지 평가지표 사용
  • QQP

    • The Quora Question Pairs dataset으로 질문 페어로 구성됨
    • 두 개의 질문이 의미론적으로 같은지 판별
    • 라벨 불균형으로 인해 F1-Score와 Accuracy 두 가지 평가지표 사용
  • STS-B

    • The Semantic Textual Similarity Benchmark로 뉴스 헤드라인, 이미지 및 비디오 캡셔 등에서 가져온 데이터

    • 인간이 문장 쌍에 대한 유사도를 1부터 5까지 라벨링하였고, 모델을 통해서 이 값을 예측함

    • Pearson 상관계수와 Spearman 상관계수를 지표로 사용

      cf) Pearson correlation coefficient

      • 두 변수 사이 상관관계가 선형일 때 사용 가능.

      • 편차 = 평균과 예측값 간의 차이 + 예측값과 실제 값의 차이
        => 전체 편차 내에서 예측값과 평균 간의 차이가 차지하는 비율

        image
        (x, y = 각 변수에 속하는 변량, n = 총 변량의 개수, z = 표준점수)

        x, y를 z점수로 변환하면 다음과 같음
        image

        => 보통 제곱한 값인 결정계수를 많이 사용

      cf) Spearman correlation coefficient

      • 두 변수의 관계가 선형적일 필요 없이 순위를 매길 수 있는 형태이면 됨
      • 순위 관계를 기반으로 함.image
  • MNLI

    • The Multi-Genre Natural Language Corpus의 줄임말로 문장 쌍에 textual entailment이 라벨링 되어 있음

    • 전제(premise)와 가설(hypothesis) 쌍으로 문장 구성, 해당 문장 간의 관계를 세 가지로 예측

      • entailment (가설이 전제를 함의를 수반함)

      • contradiction (가설과 전제가 모순)

      • neutral (entailment와 contradiction 모두 아닐 때)

        image

  • QNLI

    • The Stanford Question Answering Dataset의 줄임말로 문단-질문 쌍으로 구성
    • 문단 중 한 문장이 질문에 대한 답을 갖고 있음
  • RTE

    • The Recognizing Textual Entailment로 annual textual entailment challenge에서 데이터를 가져옴
    • netural과 contradiction을 모두 not-entailment 라벨로 지정하여 이진 분류로 만듬
  • WNLI

    • Winograd NLI의 줄임말로, The Winograd Schema Challenge에서 데이터를 가져옴
    • 대명사가 포함된 문장을 읽고 그것이 가리키는 대상을 리스트에서 고름
profile
글쓰는 개발자입니다.

0개의 댓글