BLEU(Bilingual Evaluation Understudy)

김동준·2025년 10월 17일

BLEU(Bilingual Evaluation Understudy)는 기계 번역이나 언어 모델의 문장 생성 결과가 얼마나 “사람의 정답”과 비슷한가를 점수로 측정하는 방법이에요.
쉽게 말해 “기계가 번역한 문장이 인간이 번역한 문장과 얼마나 닮았는가”를 수치화한 점수예요.

🧠 기본 개념

BLEU는 단어(혹은 n-그램) 단위로 기계 번역 결과와 정답(Reference)을 비교해,
겹치는 부분이 많을수록 높은 점수를 줍니다.
점수는 0~1 사이이며, 1이면 완벽히 일치한다는 뜻이에요.

🧩 예시로 이해하기

✅ 예제 상황
• Reference(정답):
The cat is on the mat
• Candidate(모델 출력):
The cat is on the mat
→ 완벽히 일치!
• BLEU 점수: 1.0 (100%)

🔸 예시 2
• Reference: The cat is on the mat
• Candidate: The cat sat on the mat

비교해보면 “is” 대신 “sat”만 달라요.
단어 대부분이 같으므로 BLEU 점수는 꽤 높습니다.
→ 약 0.75~0.8 정도로 나옵니다.

🔸 예시 3
• Reference: The cat is on the mat
• Candidate: The dog is in the house

겹치는 단어가 “the”와 “is”뿐이에요.
→ 거의 일치하지 않으므로 BLEU 점수는 0.2 이하로 떨어집니다.

⚙️ 간단한 작동 방식

BLEU는 아래 두 가지 요소로 계산됩니다:
1. n-그램 정밀도 (Precision):
• 1-그램(단어 단위), 2-그램(연속된 두 단어), 3-그램 … 등을 비교
• 예:
Reference: “the cat is on the mat”
Candidate: “the cat is mat”
→ “the cat”, “cat is”, “is mat” 중 일부만 일치 → 낮은 점수
2. 길이 보정 (Brevity Penalty, BP):
• 너무 짧은 문장을 만들어도 정답 일부만 맞춰 점수가 높게 나오지 않도록 조정
• 예: 정답이 “The cat is on the mat”인데
모델이 “The cat”만 출력했다면 → BP로 점수가 낮아짐

💬 요약 비유로 표현하자면

BLEU는 마치 “시험에서 답안지를 베껴 쓴 정도를 채점하는 방식”이에요.
정답과 단어들이 많이 겹칠수록 점수가 높고, 순서가 다르거나 빠지면 감점됩니다.

⚠️ 한계점
• 문장의 의미가 같아도 표현이 다르면 낮은 점수를 줄 수 있어요.
예:
• Reference: “A man is eating food”
• Candidate: “A person is having a meal”
→ 의미는 같지만 단어가 달라서 BLEU는 낮게 평가함.

그래서 BLEU는 현재도 많이 쓰이지만,
의미 기반 평가를 위해 BERTScore, ROUGE, METEOR, COMET 같은 다른 지표도 함께 사용합니다.

profile
Story Engineer

0개의 댓글