Bleu Score

전현준·2024년 8월 23일

딥러닝

목록 보기
2/4

Bleu : 좋은 번역이 여러 개 있을 경우 정확도 측정하는 방법

안 좋은 평가 방법
-> MT 결과의 토큰들이 reference(정답)에 들어있는가\

개선
-> MT의 토큰들(중복 카운트 X)이 reference에 몇 번 등장하는가?

-개선된 방법을 n-gram에 적용
n-gram: 연속된 n개 단어의 묶음

Bleu 평가법
= BP(exp(sum(1-gram, 2-gram, 3-gram, 4-gram))

여기서 BP란 만약 MT 번역 결과가 더 짧을 경우 gram이 더 유리하게 나오는 경향이 있으므로 이를 배제하기 위해 곱해주는 일종의 Penalty
MT_output이 더 큰 경우 1, 반대의 경우 exp(1-ref_output_length/MT_output_length)가 된다.

profile
배울 게 많습니다

0개의 댓글