Extrapolating Large Language Models to Non-English by Aligning Languages

ingeol·2023년 9월 1일

논문리뷰

목록 보기

18/63

unbalanced training data distribution으로 인해 En편향성을 갖는다.

⇒segmentic alignment across language 통해 해결하려함

모델성능은 alpaca와 비교했을 때 평균 42.5%(단, 실험이 번역 실험임)가 나옴

비 영어권 data를 통합해서 학습시켰을때 학습이 boosting되는 것을 확인(non-En ability)

실험은 모두 번역 task 쪽으로 성능 측정

대부분 영어로 학습이 진행되고 LLM 또한 data distribution을보면 영어가 대부분을 차지함 → 다른 단일언어 성능을 높이려는 시도는 많지만 많은 양의 data와 computing이 요구된다.

해당 논문에서는 영어를 share하는 6개의 다른 언어를 선정해서 실험함.

+이 논문 실험에서는 en to non-en 을 위한 scaling law또한 제안

Cross-lingual Instruction-tuning
- 번역 엔진을 사용해 두 데이터 쌍을 만든다. Translation task instruction data
- 두 언어 pair 쌍을 랜덤으로 뽑아내 결과가 나오게 한다. ( 반드시 target언어가 output이 아니다) 섞어서 진행했을 때 더 결과가 좋았음
Scaling Law of cross-lingual Instruction-tuning
- $\mathcal{y} = 100 - \alpha \cdot \beta ^{\log 10(\gamma \cdot \mathcal{x})}$
  
  y : 번역 성능, x : data 규모, $\gamma$ : 언어간 유사도, $\alpha$ , $\beta$ : 추정 파라미터

Metrics : XQUAD, MLQA, C-EVAL

A100 X 8, FSDP 방식

마지막 사진은 target단일 언어를 fintuning 시키는 (녹색) 과 cross lingual training방식을 사용한( 자주색) → 해당 논문이 유의미함을 나타냄