Understanding and Mitigating Language Confusion in LLMs
2025.04
language confusion 문제 > Language Confusion Benchmark 생성
혼동 종류
아래 두 가지 상황에서 조사
주요 contribution
llm language confusion 측정을 위한 데이터셋은 존재하지 않음
다양한 언어 유형을 포괄하면서 현실적인 사용 사례를 반영한 프롬프트를 수집하여 Language Confusion Benchmark(LCB)를 새로 만들었다.
extensible, cheap, efficient
1. generation settings
fastText 채택
METRICS
Line-level pass rate(LPR)
percentage of model responses that pass our line-level language confusion detector without error. A response is “correct” if all lines match the user’s desired language.
Word-level pass rate(WPR)
Word-level pass rate(WPR)
percentage of responses where all words are in the desired language.
exclude responses with line-level errors
For languages that use a Latin script, we detect erroneous English words while for Latin script languages, we identify characters outside of the script’s Unicode range.
Language confusion pass rate(LCPR)
LPR, WPR 산술평균
LID 도구는 짧은 문장이나 비표준 텍스트에 대해 성능이 떨어진다.
→ 수작업으로 한 단어/구절로 답변이 가능한 예시, 객관식 문제나 목록 나열형 프롬프트, 코드 생성, 수학식, HTML 같은 특정 데이터 형식을 요구하는 프롬프트를 걸러냈다.
→ 응답이 제공되는 데이터셋에서는 완성된 답변이 5단어 미만인 경우도 필터링했다.
→ 서구 중심 질문: 특히 미국 중심 개념(미국 대통령, 미국 국립공원, 미국 브랜드)에 대한 질문이 많다. 이는 잘못된 오류를 낼 수 있어 걸러냄
cross-lingual generation을 위해 타겟 언어로 응답하도록 지시하는 문구를 프롬프트에 추가
monolingual은 원본 그대로 사용
llama와 command 모델에 대해서는 instruct & base 버전도 함께 평가함


monolingual : 데이터셋 간 차이가 거의 없다
cross-lingual : 데이터셋 간 차이가 더 뚜렷하게 나타났다.
우리가 만든 complex 프롬프트에 대해서는 성능이 떨어졌다.
명확한 패턴 없는걸로 결론. 프롬프트의 복잡성 때문
지시문이 프롬프트 안에 자연스럽게 섞여 있으면 모델들이 언어 혼동을 더 많이 하고, 따로 분리된 지시문일 때 성능이 훨씬 좋다.
시작/끝 위치는 거의 차이가 없음
양자화? ??? ? ?
instruction model vs base model 비교
Command R: instruction 튜닝하면 언어 혼동이 더 적어진다.
Llama: instruction 튜닝이 영어 중심으로 진행되어서, 오히려 언어 혼동이 심해진다.
만약 원하지 않는 언어 토큰이 충분히 높은 확률을 부여받으면, 그것이 샘플링된다.
각 샘플링 지점마다 shannon entropy와 nucleus size를 계산했다.
관찰 결과, 언어 혼동은 주로
언어 혼동은 모델이 다음 토큰을 고를 때 확률이 널리 퍼져 있을 때 주로 발생한다.
beam search: 언어 혼동을 줄이는 데 효과적이다. 특히 cross-lingual 성능 개선이 두드러진다. 계산 비용은 더 많이 든다.
다만 beam size는 키울수록 오히려 성능이 나빠졌다.
instruction tuning이 안 된 LLM들(ex. Command R)은 그 지시를 답변하는 대신 그냥 번역만 해버리는 경우가 많았다.
→ cherry pick examples
→ few-shot prompting: command R base 언어 혼동이 크게 줄어들었고, monolingual 상황에서는 거의 완전히 문제를 없앴다.
→ one-shot prompting: 단일 언어에서는 오히려 성능이 나빠졌지만 교차 언어에서는 모델이 지시를 더 잘 따르게 만들었다.
단일 턴 입력만 다루고, 여러 턴 대화나 턴마다 다른 언어를 사용하는 상황은 고려하지 않았다.
프롬프트가 하나의 언어로 되어 있는 경우만 다루었다.
한 문장 안에 여러 언어가 있는 입력은 고려하지 않았다.
교차언어 맥락이 포함된 입력…?? ?? ? ?
표준어에 대해서만 평가. 방언/문체/다양한 스타일 확장 가능
모델 출력에 대해 최대 100 토큰까지만 평가했다.
현재 LID 도구는 word-level 언어 식별을 제대로 지원x
WPR 지표는 비라틴 문자 언어 등에서 영어 혼동만 평가할 수 있다.
DPO(Direct Preference Optimization) 학습이 진행될수록 선호 데이터와 비선호 데이터 모두에 대해 생성 확률이 감소하는 현상
"DPO is prone to generating a biased policy that favors out-of-distribution responses, leading to unpredictable behaviors."
preference learning이 학습 과정에서 자주 등장한 예시의 토큰 생성 확률을 감소시킨다면, 반대로 보지 못했거나 희귀한 토큰들의 상대적 생성 확률이 높아지는 것.
English SFT, English preference tuning 조건에서 관찰한 WPR(Word Prediction Rate) 감소

preference learning이 language confusion과 같이, 바람직하지 않은 행동을 촉진할 수 있다는 가설은 추가연구가 필요하다.
오히려 강화학습이 성능을 낮춘다?