Efficient and Effective Text Encoding For Chinese LLaMA and Alpaca

SUNGYOON LEE·2023년 9월 14일
0

Abstract

  • ChatGPT와 GPT-4와 같은 LLM들이 nlp 분야의 연구를 많이 바꿔놨고, AGI에 뭔가 한 걸음 더 다가간 것을 보여줬다.
  • 그럼에도 불구하고, 사실 ChatGPT나 GPT-4와 같은 초거대 모델들은 학습, 배포하는데 너무나 많은 비용이 들기 때문에, 기업이 학습해서 만들어낸다고 해도, open source로 공개하지도 않고, close source로 운영하기 때문에, academic한 연구를 하기에는 어려움이 많다.
  • 그런데 LLaMA와 같은 모델들이 open source로 풀리긴 했지만, LLaMA를 만든 기업이 Meta이다 보니 아무래도 사전학습의 기반이 된 corpus가 영어가 되었다.
  • 따라서 다른 언어들에 대해 사용성이 떨어지는 문제가 있다.
  • 본 논문은 그러한 단점을 해결하기 위해 나온 논문으로, LLaMA가 Chinese text를 이해하고, Chinese instruction들을 따를 수 있도록 하기 위한 방법론들을 제시한다.

  • 그렇다면 어떻게 영어 기반의 LLaMA에서 중국어를 이끌어 냈을까?
  • 기존의 LLaMA에 존재하는 토큰(기존 토큰은 32000개의 vocab size임)에 추가적인 2만개의 chinese 토큰을 추가하여 encoding 효율을 높이고 semantic적인 이해도를 높였다.
  • 또한 중국어로 continual pre training을 진행하고, instrcution 데이터셋을 활용해서 fine tuning을 했다.
  • 이러한 방식을 활용했을 때, 기존의 LLaMA보다 중국어에 대해 더 잘 이해하고, 더 잘 생성한다.

References

paper link: https://arxiv.org/pdf/2304.08177.pdf
github link: https://github.com/ymcui/Chinese-LLaMA-Alpaca

profile
매일 매일 한 걸음씩 나아가고자 합니다.

0개의 댓글

관련 채용 정보