case-sensitive Sacre-BLEU(WMT17 En-TR, IWSLT15 En-Vi), tokenized BLEU(TED bilingual), tokenized BLUE with compound split(WMT14 En-De)
모델
joint BPE model
결과
low-resource일 경우 COKD에서 3 BLEU score 상승, high-resource일 경우 COKD의 개선 정도가 상대적으로 작음
한계
선생 네트워크의 개수가 많다고 해서 성능이 향상되는 것이 아님 (main improvement is not due to the ensemble of multiple teachers)
해당 논문에서는 위와 같은 연유로 main experiment를 1개의 선생 네트워크를 이용해 진행하였으나, 선생 네트워크 개수와 성능 사이의 상관관계에 대해 충분히 설명하지 않음
비용함수의 알파값을 얼마로 지정하는 것이 가장 적절한지 실험을 통해 heuristic하게 제시하였으나, 해당 데이터셋에 국한되지는 않은지 확인 필요(data-agnostic한지)
의의
checkpoint averaging technique의 정확도 개선 이유를 설명
chckpoint averaging technique이란 마지막 몇 체크포인트의 평균을 최종 모델로써 활용하는 방식
해당 방식이 잘 작동하는 internal mechanism이 이전에는 충분히 설명되지 않았으나, 이 논문에서는 불균형 학습(imbalanced training)의 경감 덕분일 수 있음을 밝힘 (random noise의 variance를 줄여줌)
loss가 지속적으로 감소하다가 마지막에 갑자기 증가하는 일반적이지 않은 현상을 설명
adam optimizer는 momentum의 형태로 gradient을 갖고 있고, 해당 momentum은 이후 몇 단계의 gradient update에 영향을 미침. 하지만 마지막 몇 학습 단계에서는 momentum이 완전히 사용되지 않기 때문에 loss가 마지막에 상승한다고 설명
해당 논문에서 이 부분이 중요한 것은 아니나, 자신들이 한 실험이나 결과에 대해 충분한 설명을 제공하는 방식이 유의미하다고 밝힘
Continual Learning이 아닌 다른 분야에 Catastrophic forgetting 개념을 적용
Imbalaced traning에 대해 knowledge distillation을 사용하여 간단하지만 적절한 방식의 해결책 제시