[Week6] BLEU score

PangDae·2021년 9월 17일
0

BLEU score

  • 생성한 문장이 잘만들어 졌는지 확인하려면 어떻게 해야할까?

Precision and Recall

'Half of my heart is in Havana ooh na na' 라는 문장을 만들도록 했을 때, Half as my heart is in Obama ohh na 라는 문장이 생성 됬다면 잘 들어진 문장일까?

  • Precision

    만들어진 문장의 단어 갯수와 정확히 만들어진 단어의 갯수를 나눴을 때, 구해지는 결과가 바로 Precision 이다.

  • Recall


    맞춰야 할 문장의 단어 갯수와 정확히 만들어진 단어의 갯수를 나눴을 때, 구해지는 결과가 바로 recall 이다.


    ( 이비터가 리콜할 때, 리콜하고싶은 병력이 분모 리콜된 대상이 분자라고 생각하면 쉽다.)

    Precision and Recall의 맹점

  • Precision 과 Recall은 과연 좋은 평가 방법일까??

    위의 예시를 보자. Model2는 Havana na in heart my is Half ohh of na 라는 문장을 만들었다. 사람이 읽기에 말도 안되는 문장이지만, Precision과 Recall로 해당 문장을 평가 했을 때, 좋은 Score를 평가를 받는 것을 알 수 있다. 왜 일까? 위의 두가지 평가 방법은 문장의 순서를 고려하지 못하기 때문이다.

    Blue Score

  • 문장의 순서를 고려하여 평가할 수 있는 Blue Score

    블루 스코어는 위의 수식대로 평가를 진행한다. 수식을 조금 만 살펴보면, Bule Score의 개념을 금방 이해 할 수 있다. 1부터 4까지의 길이로 문장을 나눈뒤 문장이 잘 맞췄는지 비교한다. 이렇게 했을 시 문장의 순서를 고려하여 평가할 수 있게 되게된다.

    위의 사진을 보자. 위에서 있었던 말이 Model2의 문장이 프리시전이나 리콜에 비해 낮은 점수를 받는 것을 확인할 수 있다. 때문에 의미적으로 사람이 더 잘 이해할 수 있는 Model1이 더 좋은 모델로 선택될 수 있게 된다.

Precision과 Recall 개념은 항상 헷갈렸는데, 아비터 리콜설명으로 한방에 이해됬다. 주재걸교수님 bbb

profile
개발이 하고싶습니다.

0개의 댓글