WER(단어 오류율)은 음성 인식 시스템의 성능을 평가하는 데 사용되는 대표적인 지표로써 원문(transcription)과 예상된 출력을 비교하여 얼마나 정확하게 인식했는지를 측정한다.
WER은 세 가지 기본적인 편집 작업을 사용하여 계산한다.
WER은 다음 수식으로 계산됨.
편집 작업:
( S = 1 ), ( D = 0 ), ( I = 0 ), ( N = 4 )
따라서,
SPIDEr는 자동 오디오 캡션 생성(AAC) 시스템의 성능을 평가할 때 사용되는 지표로, CIDEr-D와 SPICE 점수의 산술 평균으로 계산된다.
이 두 점수는 캡션의 질을 다양한 측면에서 평가한다.
정의: CIDEr-D(Consensus-based Image Description Evaluation)는 생성된 캡션과 참조 캡션(정답 라벨)의 n-그램 유사도를 평가한다.
이를 위해 tf-idf(문서 빈도-역 문서 빈도) 가중치를 사용하여 각 n-그램의 중요도를 계산
기능: 중복되는 n-그램을 감소시키는 디컨타미네이션 기법을 포함하여, 여러 참조 캡션 간의 합의를 기반으로 점수를 계산
장점: 주어진 문장의 어휘와 구문적 유사성을 효과적으로 측정
SPICE 예시
예를 들어, 아래와 같은 이미지 캡션을 평가한다고 가정한다면
이미지: 한 남자가 공원을 걷고 있으며, 옆에 노란색 개가 함께 있습니다.
참조 캡션: "A man is walking in the park with a yellow dog."
생성된 캡션: "A person walks through a park with a yellow dog."
SPICE 평가과정
의미론적 그래프 생성:
- 참조 캡션에서 추출된 의미론적 정보는
개체: 사람(person), 개(dog)및관계: 걷다(walking), 함께(with)- 생성된 캡션에서도 유사하게 추출:
개체: 사람(person), 개(dog)및관계: 걷다(walks), 함께(with).그래프 일치 비교:
- 두 캡션 모두
개체,속성(노란색/yellow),관계가 비슷하므로, 높은 의미적 일치를 가진다.결과:
- SPICE는 생성된 캡션이 참조 캡션의 의미적 정보와 유사하다고 평가하여 높은 점수를 부여하게 된다.
SPIDEr는 CIDEr-D와 SPICE의 강점을 결합하여, AAC 시스템의 구문적 및 의미적 성능을 모두 반영하는 포괄적인 평가 지표를 제공한다.
이를 통해 캡션의 정확성 뿐만 아니라, 의미론적 유사성도 평가할 수 있게 된다.