WER(Word Error Rate)와 CER(Character Error Rate)는 음성 인식 시스템의 성능을 평가하는 중요한 지표입니다. 이들은 음성 인식 모델이 얼마나 정확하게 입력 음성을 텍스트로 변환하는지를 측정하는 데 사용됩니다.
WER은 음성 인식 시스템이 예측한 텍스트와 실제 텍스트 간의 단어 수준의 오류를 평가하는 지표
WER은 다음과 같은 방식으로 계산됩니다:
WER = (𝑆+𝐷+𝐼)/𝑁
S (Substitutions): 잘못된 단어로 대체된 단어의 수
D (Deletions): 인식하지 못한 단어의 수
I (Insertions): 잘못 삽입된 단어의 수
N (Total Words): 참조(기준) 문장에 있는 총 단어의 수
WER이 낮을수록 음성 인식 시스템의 성능이 좋음을 나타냅니다.
CER은 WER과 유사하지만, 단어 대신 문자 수준에서 오류를 평가
CER은 다음과 같은 방식으로 계산됩니다:
CER = (𝑆+𝐷+𝐼)/𝑁
S (Substitutions): 잘못된 문자로 대체된 문자의 수
D (Deletions): 인식하지 못한 문자의 수
I (Insertions): 잘못 삽입된 문자의 수
N (Total Characters): 참조(기준) 문장에 있는 총 문자의 수
CER이 낮을수록 음성 인식 시스템의 성능이 좋음을 나타냅니다.
WER과 CER의 예시
기준 문장 : "hello world"
인식된 문장: "hallo word"
WER 계산:
Substitutions (S): 2 (hello -> hallo, world -> word)
Deletions (D): 0
Insertions (I): 0
Total Words (N): 2
WER = (2+0+0)/2 = 1.0
CER 계산:
Substitutions (S): 2 (e -> a, l -> r)
Deletions (D): 0
Insertions (I): 0
Total Characters (N): 10
CER = (2+0+0)/10 = 0.2
WER과 CER의 역할
WER과 CER은 음성 인식 시스템의 성능을 평가하는 성능 지표입니다. 이는 모델이 얼마나 잘 작동하는지를 평가하는 데 사용됩니다. 이는 MAP@50(Median Average Precision at 50)와 같은 정보 검색에서 사용되는 성능 지표와 유사한 역할을 합니다. 반면, loss 지표는 모델을 훈련시키는 동안 모델의 학습 상태를 나타내는 지표입니다. WER과 CER은 모델 평가 단계에서 주로 사용됩니다.
WER(Word Error Rate): 단어 수준의 오류를 평가하는 성능 지표.
CER(Character Error Rate): 문자 수준의 오류를 평가하는 성능 지표.
이들은 음성 인식 모델의 성능을 평가하는 데 사용되는 성능 지표입니다.
MAP@50과 같은 다른 성능 지표와 유사하게, 모델의 예측 정확도를 평가하는 데 사용됩니다.
Loss 지표와는 다르게, WER과 CER은 모델의 학습 중이 아니라 평가 단계에서 사용됩니다.