WER, SPIDEr 평가 메트릭 정리

SeongGyun Hong·2025년 1월 13일

1. WER(Word Error Rate)

WER(단어 오류율)은 음성 인식 시스템의 성능을 평가하는 데 사용되는 대표적인 지표로써 원문(transcription)과 예상된 출력을 비교하여 얼마나 정확하게 인식했는지를 측정한다.

1.1 WER 계산 방법

WER은 세 가지 기본적인 편집 작업을 사용하여 계산한다.

  1. 삽입(Insertion): 추가된 단어 수
  2. 삭제(Deletion): 누락된 단어 수
  3. 대체(Substitution): 잘못된 단어로 교체된 수
  • WER은 다음 수식으로 계산됨.

    WER=S+D+INWER = \frac{S + D + I}{N}
    • 여기서:
      • ( S )는 대체된 단어 수
      • ( D )는 삭제된 단어 수
      • ( I )는 삽입된 단어 수
      • ( N )은 전체 참조 단어 수(원문 단어 수)

1.2 예시

  • 참조(원문): "안녕하세요 저는 AI입니다"
  • 예측(출력): "안녕하세요 저는 로봇입니다"

편집 작업:

  • 대체: "AI" -> "로봇" (1번 대체)
  • 삭제: 없음
  • 삽입: 없음

( S = 1 ), ( D = 0 ), ( I = 0 ), ( N = 4 )

따라서,

WER=1+0+04=0.25WER = \frac{1 + 0 + 0}{4} = 0.25

WER의 활용

  • 평가 척도: 낮은 WER은 높은 정확도를 의미
  • 모델 개선: WER을 최소화하는 것이 음성 인식 모델 개선의 목표

2. SPIDEr

SPIDEr는 자동 오디오 캡션 생성(AAC) 시스템의 성능을 평가할 때 사용되는 지표로, CIDEr-DSPICE 점수의 산술 평균으로 계산된다.
이 두 점수는 캡션의 질을 다양한 측면에서 평가한다.

2.1 CIDEr-D

  • 정의: CIDEr-D(Consensus-based Image Description Evaluation)는 생성된 캡션과 참조 캡션(정답 라벨)의 n-그램 유사도를 평가한다.
    이를 위해 tf-idf(문서 빈도-역 문서 빈도) 가중치를 사용하여 각 n-그램의 중요도를 계산

  • 기능: 중복되는 n-그램을 감소시키는 디컨타미네이션 기법을 포함하여, 여러 참조 캡션 간의 합의를 기반으로 점수를 계산

  • 장점: 주어진 문장의 어휘와 구문적 유사성을 효과적으로 측정

2.2 SPICE

  • 정의: SPICE(Semantic Propositional Image Caption Evaluation)는 캡션의 의미적 내용을 평가하는 데 중점을 둔다.
    이를 위해 캡션을 의미론적 그래프로 변환하여, 참조 캡션과의 의미적 일치를 평가함.
  • 기능: 개체, 속성, 관계 등의 의미적 정보에 기반한 평가를 통해 캡션의 의미론적 정확성을 측정
  • 장점: 문장의 의미적 유사성을 측정하여, 단순한 어휘적 일치를 넘어서 이해도 평가가 가능하다는 특징이 있다.

SPICE 예시

예를 들어, 아래와 같은 이미지 캡션을 평가한다고 가정한다면

이미지: 한 남자가 공원을 걷고 있으며, 옆에 노란색 개가 함께 있습니다.

  • 참조 캡션: "A man is walking in the park with a yellow dog."

  • 생성된 캡션: "A person walks through a park with a yellow dog."

SPICE 평가과정

  1. 의미론적 그래프 생성:

    • 참조 캡션에서 추출된 의미론적 정보는 개체: 사람(person), 개(dog)관계: 걷다(walking), 함께(with)
    • 생성된 캡션에서도 유사하게 추출: 개체: 사람(person), 개(dog)관계: 걷다(walks), 함께(with).
  2. 그래프 일치 비교:

    • 두 캡션 모두 개체, 속성(노란색/yellow), 관계가 비슷하므로, 높은 의미적 일치를 가진다.
  3. 결과:

    • SPICE는 생성된 캡션이 참조 캡션의 의미적 정보와 유사하다고 평가하여 높은 점수를 부여하게 된다.

2.3 두 메트릭의 산술 평균

  • 정의: 산술 평균은 주어진 값들의 총합을 값의 개수로 나누는 것
  • 계산식: text평균text{평균} = fraci=1nxinfrac{\sum_{i=1}^{n} x_i}{n}
    • 여기서 xix_i는 각 값이며, nn은 값의 총 개수
  • 적용: SPIDEr 점수는
    SPIDEr=CIDEr-D+SPICE2\text{SPIDEr} = \frac{ \text{CIDEr-D} + \text{SPICE} }{2}

3. SPIDEr의 장점

SPIDEr는 CIDEr-D와 SPICE의 강점을 결합하여, AAC 시스템의 구문적 및 의미적 성능을 모두 반영하는 포괄적인 평가 지표를 제공한다.
이를 통해 캡션의 정확성 뿐만 아니라, 의미론적 유사성도 평가할 수 있게 된다.

profile
헤매는 만큼 자기 땅이다.

0개의 댓글