#참고
기계 번역 = Machine Translation = MT
인간의 번역 = Human Translation = HT
: a metric that quantifies how uncertain a model is about the predictions it makes
→ 선택 가능한 경우의 수를 의미 (분기 계수, Branching Factor)
PPL의 유의점
1) PPL 값 낮다는 것은 오직 test 데이터와의 일치율이 높은 것만을 의미할 뿐
2) PPL 수치는 테스트 데이터의 좌우됨
: a measure of the difference between two probability distributions for a given random variable or set of events → 실제 데이터와 모델이 계산한 데이터의 확률 분포의 차이
기계 번역(Machine Translation, MT)에 대한 사람의 평가는 포괄적이지만 비용이 많이 들고 시간이 오래 걸린다(수 주~ 수 개월). 따라서 우리는 빠르고 저렴하며 언어에 구애받지 않는 자동화된 기계 번역 평가 방법을 제안한다.
BiLingual Evaluation Understudy → BLEU
1994, 1999 - MT에 대한 인간 평가는 변역의 정확도, 충실도, 유창성 등 여러 측면 고려함
2001 - MT 평가 기법에 대한 문헌 제공됨
1999 - MT를 인간이 평가하는 방식은 비싸다
기계 번역 성능 확인 피드백 많지만 인간 평가는 한계(병목 현상) → 그래서 BLEU 제안
: 번역된 문장이 인간이 한 전문적 번역에 가까울수록 성능이 좋은 것
그러기 위해서는?
1. 수치화된 ‘번역 근접성’ 지표 확보
2. 좋은 품질의 인간 번역 말뭉치 확보
문장의 번역은 정답이 없고 여러 번역이 존재할 수 있다. 인간은 좋은 번역, 나쁜 번역 구분 가능하지만 기계는 그렇지 않음. 다만 번역 문장과 레퍼런스 문장 간의 일치하는 단어나 구의 개수로 좋은 번역인지 판단 가능
Example
Candidate 1: the the the the the the the.
Candidate 2: The cat is on the mat.
Reference: There is a cat on the mat.
n-gram | 1-gram | 2-gram | 3-gram | 4-gram |
---|---|---|---|---|
Cand. 1 | 7/7 | 0/6 | 0/5 | 0/4 |
Cand 2 | 5/7 | 2/6 | 1/5 | 0/4 |
Modified n-gram: Reference에서 한번 나온 단어는 더 이상 count하지 않음
→ 반복되는 단어에 대한 penalty 부여 가능
Modified n-gram | 1-gram | 2-gram | 3-gram | 4-gram |
---|---|---|---|---|
Cand. 1 | 7/7 → 2/7 | 0/6 | 0/5 | 0/4 |
Cand 2 | 5/7 → 5/7 | 2/6 | 1/5 | 0/4 |
→ Reference에 있는 모든 단어를 다 사용한다면? or 문장이 너무 짧다면?
Candidate 1: I always invariably perpetually do.
Candidate 2: I always.
Reference 1: I always do.
Reference 2: I invariably do.
Reference 3: I perpetually do.
1-gram | 2-gram | 3-gram | BP | |
---|---|---|---|---|
Cand. 1 | 5/5 | 0/6 | 0/3 | 1 (c>r) |
Cand 2 | 2/2 | 1/1 | - | 0.x (c<r) |
사실 reference 보다 긴 candidate는 이미 완전히 일치 하지 않는 이상 modified n-gram precision 의해 패널티를 받고 있음 → 그래서 짧은 문장에 패널티를 주는 BP 도입
0≤ BLEU ≤ 1
→ 1에 가까울수록 더 좋음
레퍼런스와 동일하지 않는 이상 1일 수는 없음
Table 1을 보고 드는 의문
→ 그래서 25개로 구성된 20개 블록으로 나누고 paired t-test 진행