[metric] LLM evaluation metrics

ma-kjh·2일 전
0

metric

목록 보기
4/4

  1. ROUGE
  2. BLUE

1. ROUGE

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)는 자동 요약이나 기계 번역 등의 자연어 생성 품질을 평가하기 위한 지표. ROUGE는 주로 생성된 텍스트와 기준(참조) 텍스트 사이에 얼마나 많은 n-gram, 단어, 혹은 연속된 단어(문장)를 공유하는지를 측정하는 방식. 대표적으로 사용되는 ROUGE 지표들에는 ROUGE-N, ROUGE-L 등이 있다.


1. ROUGE-N

개념

  • ROUGE-N은 n-gram 기준의 겹치는 항목을 계산한다.
  • n-gram은 텍스트에서 연속된 n개의 단어 집합을 의미한다.
    • ROUGE-1: 단일 단어(유니그램) 기준
    • ROUGE-2: 두 단어(바이그램) 기준 등

계산 방법

  1. n-gram 추출
    • 기준 텍스트(참조 요약)와 생성된 텍스트에서 각각의 n-gram을 추출.
  2. 겹치는 항목 수 계산
    • 두 텍스트 간에 겹치는(n-gram) 개수를 센다. 이를 매치된 n-gram의 수 (overlap count)라고 한다.
  3. 정밀도(Precision), 재현율(Recall), F1 스코어 계산
    • 재현율 (Recall):
      Recall=매치된 n-gram 수기준 텍스트의 총 n-gram 수\text{Recall} = \frac{\text{매치된 n-gram 수}}{\text{기준 텍스트의 총 n-gram 수}}
    • 정밀도 (Precision):
      Precision=매치된 n-gram 수생성된 텍스트의 총 n-gram 수\text{Precision} = \frac{\text{매치된 n-gram 수}}{\text{생성된 텍스트의 총 n-gram 수}}
    • F1 스코어 (F1 score):
      재현율과 정밀도의 조화평균.
      F1=2×Precision×RecallPrecision+Recall\text{F1} = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}

2. ROUGE-L

개념

  • ROUGE-L은 두 텍스트 간의 최장 공통 부분 수열(Longest Common Subsequence, LCS)을 기반으로 함.
  • LCS는 두 시퀀스에서 순서를 유지하면서 일치하는 가장 긴 공통 부분을 의미한다.
  • ROUGE-L은 텍스트의 유창성과 문맥 구조를 평가하는 데 도움을 준다.

계산 방법

  1. LCS 길이 계산
    • 기준 텍스트와 생성된 텍스트 간의 최장 공통 부분 수열의 길이를 구합니다.
  2. 재현율, 정밀도, F1 스코어 계산
    • 재현율 (Recall):
      Recall=LCS 길이기준 텍스트의 단어 수\text{Recall} = \frac{\text{LCS 길이}}{\text{기준 텍스트의 단어 수}}
    • 정밀도 (Precision):
      Precision=LCS 길이생성된 텍스트의 단어 수\text{Precision} = \frac{\text{LCS 길이}}{\text{생성된 텍스트의 단어 수}}
    • F1 스코어 (F1 score):
      두 값의 조화 평균으로 계산합니다.
      F1=2×Precision×RecallPrecision+Recall\text{F1} = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}

간단한 설명

  • 목적: ROUGE는 자동 요약, 번역, 혹은 생성된 텍스트가 기준 텍스트와 어느 정도 일치하는지를 평가하는 데 사용.
  • 주요 아이디어:
    • ROUGE-N은 n-gram의 중복률을 측정하여 텍스트의 정확성을 평가.
    • ROUGE-L은 텍스트 간의 연속된 일치 패턴(최장 공통 부분 수열)을 기반으로 문맥 및 유창성을 측정합니다.
  • 응용분야:
    • 텍스트 요약 평가
    • 기계 번역 품질 평가
    • 기타 자연어 생성 시스템의 출력 평가

ROUGE 스코어는 생성된 텍스트가 얼마나 원본(참조) 텍스트의 중요한 내용을 잘 담고 있는지를 수치화하는 지표로 많이 활용됩니다.


2. BLUE

BLEU (Bilingual Evaluation Understudy) score는 기계 번역 결과와 참조(reference) 번역 사이의 유사도를 평가하는 대표적인 자동 평가 지표. BLEU 스코어는 주로 후보 번역이 참조 번역의 n-gram을 얼마나 잘 포함하는지를 기반으로 계산하며, 수정된 n-gram precisionbrevity penalty (길이 패널티)를 함께 고려.


BLEU Score 계산 방법

1. n-gram 추출 및 수정된 n-gram Precision 계산

  1. n-gram 추출:
    후보 번역과 하나 이상의 참조 번역에서 n-gram (예: unigram, bigram, trigram, ... 등)을 추출.

  2. 클리핑(clip) 카운트:

    • 각 후보 번역의 n-gram에 대해, 해당 n-gram이 참조 번역에서 나타나는 최대 빈도수를 구함.
    • 후보 번역에서 해당 n-gram의 등장 횟수를 참조 번역에서의 최대 등장 횟수와 비교하여, 후보에서의 n-gram 카운트를 클리핑 한다.
      예를 들어, 후보 번역에서 "the cat"이 3번 나타나는데 참조에서는 최대 2번만 등장한다면, "the cat"의 클리핑 카운트는 2가 된다.
  3. 수정된 n-gram Precision 계산:
    모든 n-gram에 대해, 클리핑된 카운트의 총합을 후보 번역 전체의 n-gram 총개수로 나눈다.

    pn=n-gramcandidatemin(count in candidate,max count in references)총 후보 n-gram 개수p_n = \frac{\sum_{\text{n-gram} \in \text{candidate}} \min(\text{count in candidate}, \text{max count in references})}{\text{총 후보 n-gram 개수}}

2. Geometric Mean 계산

  • 여러 n-gram (보통 1-gram부터 4-gram까지)에 대해 수정된 precision pnp_n기하평균(geometric mean)을 구한다.
  • 보통 등가의 가중치 wnw_n (대개 wn=1Nw_n = \frac{1}{N}, 여기서 NN은 사용한 n-gram의 최대 크기)를 부여한다.
  • 기하평균은 다음과 같이 계산된다.
    Precisiongeom=exp(n=1Nwnln(pn))\text{Precision}_{\text{geom}} = \exp\left(\sum_{n=1}^{N} w_n \cdot \ln(p_n)\right)

3. Brevity Penalty (길이 패널티) 적용

  • 후보 번역이 참조 번역보다 지나치게 짧으면 높은 precision을 갖더라도 과도한 스코어가 나오는 것을 방지하기 위해 Brevity Penalty (BP)를 적용합니다.
  • 후보 번역 길이 cc와 참조 번역 길이 rr에 기반하여 다음과 같이 계산합니다.
    BP={1if c>r,exp(1rc)if cr.BP = \begin{cases} 1 & \text{if } c > r, \\ \exp\left(1 - \frac{r}{c}\right) & \text{if } c \le r. \end{cases}

4. 최종 BLEU Score 계산

  • 최종 BLEU 스코어는 기하평균과 Brevity Penalty를 곱하여 얻습니다.
    BLEU=BPexp(n=1Nwnln(pn))\text{BLEU} = BP \cdot \exp\left(\sum_{n=1}^{N} w_n \cdot \ln(p_n)\right)

간단한 설명

  • 목적: 후보 번역과 참조 번역 간의 n-gram 매칭을 기반으로 번역의 질을 평가하는 지표.

  • 핵심 아이디어:

    1. 후보 번역에 포함된 n-gram이 참조 번역에도 동일하게 등장하는지 확인한다.
    2. 각 n-gram의 중복 횟수를 참조에서의 최대 빈도로 클리핑하여 과도한 중복을 방지한다.
    3. 여러 n-gram 순서에 대해 수정된 precision의 기하평균을 계산한다.
    4. 후보 번역이 참조 번역보다 너무 짧으면 벌점을 주어 스코어를 낮춘다.
  • 특징: BLEU는 자동 평가 지표로 널리 사용되지만, 문맥의 유창성이나 문법적 정확성 등을 직접 평가하지는 않으므로, 인간 평가와 함께 고려하는 것이 일반적이다.

이와 같은 과정으로 BLEU 스코어를 계산하며, 번역 시스템 및 자연어 생성 모델의 성능을 비교 평가할 수 있다.

profile
거인의 어깨에 올라서서 더 넓은 세상을 바라보라 - 아이작 뉴턴

0개의 댓글