2023년 8월 24일에 네이버 하이퍼클로바X가 공개됩니다. 관련 기사를 찾아보면 네이버가 OpenAI보다 한국어를 6500배 더 많이 학습했다는 언급을 자주 접하게 됩니다. 그런데 6500배라는 수치는 어떻게 나온 것일까요? 오픈AI에서 챗GPT나 GPT4를 발표하면서 한국어를 얼만큼 학습했다고 얘기한 적이 없거든요. 네이버에서는 무슨 근거로 6500배라고 계산했을까요? 커뮤니티마다 이것을 궁금해하는 분들이 꽤 계셨습니다.
오픈AI에서 한국어 데이터 비율을 공개한 적이 한 번 있었습니다. 바로 GPT3를 발표했을 때인데요, 깃헙에 정확한 데이터 분량을 공개해 두었습니다. 아래 링크에서 보실 수 있습니다:
https://github.com/openai/gpt-3/blob/master/dataset_statistics/languages_by_character_count.csv
한국어는 30위로 166,606,790글자를 학습했다고 하네요. 전체의 0.01459%라는 꽤 아쉬운 분량입니다. 세계 80억 인구의 1%는 한국어를 쓰는데 GPT3에는 1%도 아니고 0.01% 정도밖에 안 넣다니 너무 적은 것 같아요. 어쨌든 당시의 정확한 분량은 알았습니다. 한글은 보통 1글자에 2바이트니까 300MB 정도의 분량이 되겠네요.
한편 네이버에서는 1.96TB 규모 데이터셋을 구축해서 하이퍼클로바를 학습시켰다는 보도자료를 쉽게 찾아볼 수 있습니다. 1.96TB를 300MB로 나누면? 6533.333... 네, 6500배의 비밀이 풀렸습니다. 2021년 봄에 NAVER AI NOW에서 하이퍼클로바를 발표할 때 GPT3보다 한국어를 6500배 더 많이 투입했다고 얘기했고 그 수치를 지금까지 쓰고 있는 것이었습니다.
그런데 이것이 지금도 사실일까요? 오픈AI GPT3가 나온 지 3년이 지났거든요. ChatGPT는 21년 9월까지의 데이터로 학습했다고 하니 이미 최초의 GPT3과 다른 pretrain 모델을 사용했음을 알 수 있습니다. ChatGPT의 한국어 성능을 보면 300MB 데이터로 학습했다기에는 매우 뛰어난데요, 아마도 훨씬 많은 데이터를 투입했을 것으로 보입니다. 물론 네이버도 하이퍼클로바X를 만들면서 데이터를 많이 늘렸겠지만, 관련 강연을 들어보면 한국어보다 영어 등의 데이터를 늘리는 데 주력했다고 합니다. 따라서 2023년 8월 현재는 격차가 6500배보다는 꽤 줄어들지 않았을까 예상해봅니다.
하이퍼클로바X 발표 후 업데이트합니다. 하이퍼클로바X는 1.56T 토큰을 학습했다고 합니다. 토큰 단위로 바뀌어서 1.96TB와 관계가 헷갈릴 수 있습니다만, 한국어는 1토큰이 평균 6바이트 정도의 정보를 담고 있습니다. 따라서 1.96TB는 0.3T 토큰이었던 것으로 보입니다. 2021년의 하이퍼클로바에 비해 2023년의 하이퍼클로바X는 5배 더 많은 데이터를 투입한 것입니다.
잘 읽었습니다. 좋은 정보 감사드립니다.