WER, SPIDEr 평가 메트릭 정리

SeongGyun Hong·2025년 1월 13일

CIDEr-D NOTA SPICE spider wer

지식공유 기록: 오답노트

목록 보기

20/21

1. WER(Word Error Rate)

WER(단어 오류율)은 음성 인식 시스템의 성능을 평가하는 데 사용되는 대표적인 지표로써 원문(transcription)과 예상된 출력을 비교하여 얼마나 정확하게 인식했는지를 측정한다.

1.1 WER 계산 방법

WER은 세 가지 기본적인 편집 작업을 사용하여 계산한다.

삽입(Insertion): 추가된 단어 수
삭제(Deletion): 누락된 단어 수
대체(Substitution): 잘못된 단어로 교체된 수

WER은 다음 수식으로 계산됨.

$WER = \frac{S + D + I}{N}$
- 여기서:
  - ( S )는 대체된 단어 수
  - ( D )는 삭제된 단어 수
  - ( I )는 삽입된 단어 수
  - ( N )은 전체 참조 단어 수(원문 단어 수)

1.2 예시

참조(원문): "안녕하세요 저는 AI입니다"
예측(출력): "안녕하세요 저는 로봇입니다"

편집 작업:

대체: "AI" -> "로봇" (1번 대체)
삭제: 없음
삽입: 없음

( S = 1 ), ( D = 0 ), ( I = 0 ), ( N = 4 )

따라서,

WER = \frac{1 + 0 + 0}{4} = 0.25

WER의 활용

평가 척도: 낮은 WER은 높은 정확도를 의미
모델 개선: WER을 최소화하는 것이 음성 인식 모델 개선의 목표

2. SPIDEr

SPIDEr는 자동 오디오 캡션 생성(AAC) 시스템의 성능을 평가할 때 사용되는 지표로, CIDEr-D와 SPICE 점수의 산술 평균으로 계산된다.
이 두 점수는 캡션의 질을 다양한 측면에서 평가한다.

2.1 CIDEr-D

정의: CIDEr-D(Consensus-based Image Description Evaluation)는 생성된 캡션과 참조 캡션(정답 라벨)의 n-그램 유사도를 평가한다.
이를 위해 tf-idf(문서 빈도-역 문서 빈도) 가중치를 사용하여 각 n-그램의 중요도를 계산
기능: 중복되는 n-그램을 감소시키는 디컨타미네이션 기법을 포함하여, 여러 참조 캡션 간의 합의를 기반으로 점수를 계산
장점: 주어진 문장의 어휘와 구문적 유사성을 효과적으로 측정

2.2 SPICE

정의: SPICE(Semantic Propositional Image Caption Evaluation)는 캡션의 의미적 내용을 평가하는 데 중점을 둔다.
이를 위해 캡션을 의미론적 그래프로 변환하여, 참조 캡션과의 의미적 일치를 평가함.
기능: 개체, 속성, 관계 등의 의미적 정보에 기반한 평가를 통해 캡션의 의미론적 정확성을 측정
장점: 문장의 의미적 유사성을 측정하여, 단순한 어휘적 일치를 넘어서 이해도 평가가 가능하다는 특징이 있다.

SPICE 예시

예를 들어, 아래와 같은 이미지 캡션을 평가한다고 가정한다면

이미지: 한 남자가 공원을 걷고 있으며, 옆에 노란색 개가 함께 있습니다.

참조 캡션: "A man is walking in the park with a yellow dog."

생성된 캡션: "A person walks through a park with a yellow dog."

SPICE 평가과정

의미론적 그래프 생성:

참조 캡션에서 추출된 의미론적 정보는 개체: 사람(person), 개(dog) 및 관계: 걷다(walking), 함께(with)

생성된 캡션에서도 유사하게 추출: 개체: 사람(person), 개(dog) 및 관계: 걷다(walks), 함께(with).

그래프 일치 비교:

두 캡션 모두 개체, 속성(노란색/yellow), 관계가 비슷하므로, 높은 의미적 일치를 가진다.

결과:

SPICE는 생성된 캡션이 참조 캡션의 의미적 정보와 유사하다고 평가하여 높은 점수를 부여하게 된다.

2.3 두 메트릭의 산술 평균

정의: 산술 평균은 주어진 값들의 총합을 값의 개수로 나누는 것
계산식: $text{평균}$ = $frac{\sum_{i=1}^{n} x_i}{n}$
- 여기서 $x_i$ 는 각 값이며, $n$ 은 값의 총 개수
적용: SPIDEr 점수는
$\text{SPIDEr} = \frac{ \text{CIDEr-D} + \text{SPICE} }{2}$