Q: ROUGE score란?
번역, 요약 등 text generation task에 BLUE와 함께 주로 사용되는 평가지표.
BLEU : n-gram precision
ROUGE : n-gram recall
즉 rouge score는 정답 문장의 n-gram이 생성 문장에 얼마나 포함되는지의 비율을 의미한다.
예시
ROUGE-1 : unigram
정답문장: "철수는 10 년 안에 취직 할 것이다."
생성문장: "영희는 3 년 안에 취직 할 것이다."
정답 문장의 unigram 수 : 7
생성 문장 중 정답 문장의 unigram이 속한 수 : 5
ROUGE-1 = 5/7
ROUGE-2 : bigram
정답문장: "영희는 10 년 안에 취직 할 것이다."
생성문장:"영희는 10 년 안에 절대 취직 못 할 것이다. "
정답 문장의 bigram 수 : 6
생성 문장 중 정답 문장의 bigram이 속한 수 : 4
ROUGE−2 = 4/6
ROUGE-L
Longest Common Subsequence
가장 긴 Sequence의 recall. sequence는 이어지지 않아도 된다.
정답문장: "영희는 10 년 안에 취직 할 것이다."
생성문장:"영희는 10 년 안에 절대 취직 못 할 것이다. "
정답 문장의 길이 : 7
longest_sequence 길이 : 7
longest_sequence : 한화는 10 년 안에 우승 할 것이다.
ROUGE−L = 7/7 = 1
생성 문장과 정답 문장이 완전 일치하지는 않지만, 떨어져 있는 Sequence 형태로 정답 문장과 일치하기 때문에 ROUGE-L score 1을 얻을 수 있음.
Reference
https://supkoon.tistory.com/26
예시 쓰다가 울었네요