현재 NMT는 다음과 같은 문제들이 존재
이전에는 위와 같은 문제들에 대해 length normalization, data cleaning, model regularization과 같은 heuristic한 방법을 사용
하지만, 최근에는 가장 높은 점수를 받은 번역을 찾는 decision rule에 부분적으로 책임이 있다는 주장도 제기됨
본 논문의 저자들은 MBR이 NMT의 기존 bias들을 극복할 잠재력을 가졌다고 보고, 이에 대해 실험
[Eikema and Aziz(2020)]에서 sample과 beam search의 통계적 특성에 대해 비교하고, MBR이 beam search에 비해 automatic metric에 대해 유리하게 디코딩할 수 있음을 보여주지만 본 논문에서는 MBR에만 초점을 두고 실험.
실험 결과,
사실상 NMT에서 기본적으로 쓰는 decoding algorithm은 beam search.
beam search는 MAP 알고리즘이라고 하는 더 넓은 범주의 inference procedures라고 볼 수 있음
MAP 알고리즘의 공통점은 주어진 모델에서 가장 확률이 높은 번역을 찾으려고 한다는 것
특히, 이 알고리즘은 시퀀스에 대해 output distribution의 mode를 복구(recover)하려고 함
이러한 search problem의 정확한 답은 보통 계산할 수 없음(intractable).
==> Beam search는 이를 tractable하게 근사한 거지만, 분포의 진짜 mode를 찾는데 자주 실패
Length bias
Skewed word frequencies
Beam search curse
Susceptibility to copy noise
Low domain robustness
Inadequacy of the mode
MBR decoding은 음성인식과 통계 번역에서 사용됐던 방법
최근에는, NMT에서 beam search decoding을 개선하기 위해 사용되고 있음
본 논문에서는 MBR를 NMT에서 간단하게 사용할 수 있게 정의함
여기서 모든 가능한 후보 번역문들을 size n크기의 샘플링으로 모델에서 근사할 수 있음
이 집합을 사용해서 posterior distribution을 근사하는데도 사용할 수 있음!
각 샘플 에 대해, expected untility(the inverse risk)를 계산해 pool안의 다른 샘플과 비교할 쑤 있음
가장 높은 expected utility 를 가진 샘플이 최종 번역문으로 선택됨
의 크기와 utility function 는 알고리즘의 하이퍼퍼라미터
utility function으로는 보통 가설(후보 번역문)과 reference translation(정답 요약문)사이의 유사도를 계산한다
즉, MBR는 "모든 가능성 있는 번역에 평균적으로 가장 가까운 consensus 번역을 선택하는 것"으롭 볼 수 있음
Number of samples
sample 크기가 커질수록 MBR의 번역 품질이 높아진다는 것을 확인
아래 표와 같이 번역문의 길이를 보사해본 결과, 평균적으로 beam search는 번역문의 true length를 과소평가하지만 샘플링에 의해 생성된 후보 번역문들은 reference length와 보다 더 가까움
(근데 사실 별 차이 없는거 아닌가..)
MBR decoding에서 utilty function의 선택이 생성한 번역문의 길이에 큰 영향을 끼친다는 것을 알 수 있음
이러한 length biases를 줄일 수 있는지 확인하기 위해 다음과 같이 utiliyy function u를 symmetrizing함
(이 때 H는 harmonic mean을 의미)
이렇게 하면 recall 또는 precision을 선호하는 경향을 피할 수 있지만, 사실 symmetric utility function도 평균적으로 reference보다 길이가 짦음
이러한 실험을 토대로, MBR이 uility function과 연관된 length biases를 가진다고 결론 지음
학습 데이터에서 원문의 copy가 target side에 존재할 경우, copies는 beam search에서 과대표현됨
MBR도 이와 같은 현상을 겪는지 확인하기 위해, 기존 학습데이터를 바탕으로 원문 copy 비율을 0.1%에서 50%사이로 설정.
아래 그림을 보면, 학습 데이터의 copy비율이 낮을때는 MBR과 beam search을 비교할만 함
하지만, 5%에서 25%사이에서는 MBR이 beam search보다 훨씬 뛰어난 성능을 보임
번역에서 copy를 reference와 90%이상 단어가 겹칠 경우 copy라고 정의
MBR이 copy hypotheses에 훨씬 낮은 utility를 배정, 최종 번역이 copy가 될 확률을 매우 낮음
예를 들어, 학습 데이터의 10%가 copies라면, beam search는 거의 50%정도의 copy를 만들지만 MBR는 10%이하의 copy를 만듦
즉, MBR이 학습 데이터에 내재된 copy noise에 더 robust하다고 볼 수 있음