다국어 언어 모델에 대한 최근 연구는, cross-lingual zero-shot transfer 능력을 입증했지만, 언어 간 공유속성이 downstream task에서 전송을 가능하게 하는 것이 무엇인지에 대한 입증이 부족함
언어들은 많은 언어적 측면에서 다르기 때문에, 자연어 쌍을 포함하는 분석은 모순적이기도 함
-> 본 논문에서는 스크립트, 어순 및 구문과 같은 측면을 수정하여 구성된 4개의 다양한 언어와 해당 언어 간의 제로샷 transfer을 측정하여 다양한 언어 특성의 효과를 분리하기 위한 대규모 경험적 연구를 수행함
-> 무엇보다도, 언어가 단어 순서가 다를 때 하위 단어 중복의 부재가 zeroshot transfrer에 상당한 영향을 미치고, transfer performance and word embedding alignment between language 강한 상관관계가 있음을 보여줌
-> 결과는 다국어 모델에서 암묵적인 출현에 의존하는 대신 언어 간 단어 임베딩 정렬을 명시적으로 개선하는 데 초점을 맞출 것!