BLEU(Bilingual Evaluation Understudy)는 기계 번역이나 언어 모델의 문장 생성 결과가 얼마나 “사람의 정답”과 비슷한가를 점수로 측정하는 방법이에요.
쉽게 말해 “기계가 번역한 문장이 인간이 번역한 문장과 얼마나 닮았는가”를 수치화한 점수예요.
⸻
🧠 기본 개념
BLEU는 단어(혹은 n-그램) 단위로 기계 번역 결과와 정답(Reference)을 비교해,
겹치는 부분이 많을수록 높은 점수를 줍니다.
점수는 0~1 사이이며, 1이면 완벽히 일치한다는 뜻이에요.
⸻
🧩 예시로 이해하기
✅ 예제 상황
• Reference(정답):
The cat is on the mat
• Candidate(모델 출력):
The cat is on the mat
→ 완벽히 일치!
• BLEU 점수: 1.0 (100%)
⸻
🔸 예시 2
• Reference: The cat is on the mat
• Candidate: The cat sat on the mat
비교해보면 “is” 대신 “sat”만 달라요.
단어 대부분이 같으므로 BLEU 점수는 꽤 높습니다.
→ 약 0.75~0.8 정도로 나옵니다.
⸻
🔸 예시 3
• Reference: The cat is on the mat
• Candidate: The dog is in the house
겹치는 단어가 “the”와 “is”뿐이에요.
→ 거의 일치하지 않으므로 BLEU 점수는 0.2 이하로 떨어집니다.
⸻
⚙️ 간단한 작동 방식
BLEU는 아래 두 가지 요소로 계산됩니다:
1. n-그램 정밀도 (Precision):
• 1-그램(단어 단위), 2-그램(연속된 두 단어), 3-그램 … 등을 비교
• 예:
Reference: “the cat is on the mat”
Candidate: “the cat is mat”
→ “the cat”, “cat is”, “is mat” 중 일부만 일치 → 낮은 점수
2. 길이 보정 (Brevity Penalty, BP):
• 너무 짧은 문장을 만들어도 정답 일부만 맞춰 점수가 높게 나오지 않도록 조정
• 예: 정답이 “The cat is on the mat”인데
모델이 “The cat”만 출력했다면 → BP로 점수가 낮아짐
⸻
💬 요약 비유로 표현하자면
BLEU는 마치 “시험에서 답안지를 베껴 쓴 정도를 채점하는 방식”이에요.
정답과 단어들이 많이 겹칠수록 점수가 높고, 순서가 다르거나 빠지면 감점됩니다.
⸻
⚠️ 한계점
• 문장의 의미가 같아도 표현이 다르면 낮은 점수를 줄 수 있어요.
예:
• Reference: “A man is eating food”
• Candidate: “A person is having a meal”
→ 의미는 같지만 단어가 달라서 BLEU는 낮게 평가함.
그래서 BLEU는 현재도 많이 쓰이지만,
의미 기반 평가를 위해 BERTScore, ROUGE, METEOR, COMET 같은 다른 지표도 함께 사용합니다.