[Week6] BLEU score

PangDae·2021년 9월 17일

BLEU score

'Half of my heart is in Havana ooh na na' 라는 문장을 만들도록 했을 때, Half as my heart is in Obama ohh na 라는 문장이 생성 됬다면 잘 들어진 문장일까?

Precision 과 Recall은 과연 좋은 평가 방법일까??

위의 예시를 보자. Model2는 Havana na in heart my is Half ohh of na 라는 문장을 만들었다. 사람이 읽기에 말도 안되는 문장이지만, Precision과 Recall로 해당 문장을 평가 했을 때, 좋은 Score를 평가를 받는 것을 알 수 있다. 왜 일까? 위의 두가지 평가 방법은 문장의 순서를 고려하지 못하기 때문이다.

Blue Score
문장의 순서를 고려하여 평가할 수 있는 Blue Score

블루 스코어는 위의 수식대로 평가를 진행한다. 수식을 조금 만 살펴보면, Bule Score의 개념을 금방 이해 할 수 있다. 1부터 4까지의 길이로 문장을 나눈뒤 문장이 잘 맞췄는지 비교한다. 이렇게 했을 시 문장의 순서를 고려하여 평가할 수 있게 되게된다.

위의 사진을 보자. 위에서 있었던 말이 Model2의 문장이 프리시전이나 리콜에 비해 낮은 점수를 받는 것을 확인할 수 있다. 때문에 의미적으로 사람이 더 잘 이해할 수 있는 Model1이 더 좋은 모델로 선택될 수 있게 된다.

Precision과 Recall 개념은 항상 헷갈렸는데, 아비터 리콜설명으로 한방에 이해됬다. 주재걸교수님 bbb

개발이 하고싶습니다.