Rouge(Recall-Oriented Understudy for Gisting Evaluation)
텍스트 요약 모델 성능 평가에 주로 사용되는 지표로 Label(사람이 만든 요약문)과 Summary(모델이 생성한 inference)를 비교해서 성능 계산
: label을 구성하는 단어 중 몇개가 inference 와 겹치는지 확인
: inference를 구성하는 단어 중 몇개가 Label과 겹치는지 확인
Summary(by model):
the cat was found under the bed
Reference:
the cat was under the bed
———————————————————-
Summary(by model) (bigrams) :
the cat, cat was, was found , found under, under the, the bed
Reference (bigrams) :
the cat, cat was, was under , under the, the bed
Reference : police killed the gunman
Summary - 1 : police kill the gunman
Summary - 2 : the gunman kill police
————————————————————
ROUGE - N :
Summary -1 = Summary - 2 (”police”, “the gunman”)
————————————————————
ROUGE - L :
Summary - 1 = 3/4 (”police the gunman”)
Summary - 2 = 2/4 (”the gunman”)
WINDOW_SIZE = 2
cat in the hat
—> skip-bigram = {”cat in”, “cat the”, “cat hat”, “in the”, “in hat”, “the hat” }
혹시 블로그 관련 연구하신 코드 github나 볼 수 있는 곳이 있을까요? 너무 잘작성 해놓으셔서 저도 같은 분야 NLP 공부를 시작하려는데 도움이 될 것 같습니다.