https://openai.com/blog/introducing-openai-japan
OpenAI에서 일본지사를 설립하더니, GPT4 일본어판까지 만들었습니다. GPT4 커스터마이즈 모델이라고 하는데, 일본어 토큰 수를 47% 줄였다고 하는 것을 보면 토크나이저를 일본어에 최적화한 것 같습니다. (만약 토크나이저를 cl100k_base
에서 수정하지 않았다면 놀라운 신기술이 되겠습니다만, 수정했을 가능성이 높다고 봅니다)
이 소식은 단순히 옆나라 얘기가 아닙니다. 네이버, 카카오, SKT 등 한국에서 LLM을 개발하는 기업들한테도 중대한 영향이 있기 때문입니다. 한국어 특화 언어모델이 필요한 이유가 토큰 수의 효율성인데 OpenAI에서 미래에 직접 한국어 특화 모델을 출시한다면 한국 기업들이 이와 경쟁하기는 매우 어려워집니다. OpenAI만큼의 AI 성능이 나오기는 힘들기 때문에 가격경쟁력으로 승부해야 하는데 이번에 OpenAI도 토크나이저를 최적화할 수 있다는 가능성을 보여주었습니다.
하이퍼클로바 X와 GPT4의 한국어 토크나이저 효율은 2.1배 정도 차이이므로 GPT4 한국어판이 등장해서 일본어판의 47%만큼의 효율만 보여주어도 네이버의 우위는 10% 정도만 남습니다. 이 정도로는 OpenAI를 상대하기는 역부족입니다.
GPT 3.5 터보가 7B 규모로 업스테이지의 솔라 10.7B보다도 작다는 주장(리버스 엔지니어링 논문)이 나오는 상황이라서 한국의 언어모델 기업들이 어떻게 대응해야 할지 고민이 깊어지고 있습니다.