하이퍼클로바X 일본어판은 데이터를 얼마나 투입했을까

singleheart·2023년 10월 20일
0

LLM 학습에 투입되는 데이터 양은 토큰으로 계산하는 것이 가장 정확합니다. 모델 크기와 데이터 양과 성능의 상관관계에 대한 모든 공식은 토큰 수 기준으로 되어 있습니다. 그러나 토큰은 전문용어이기 때문에 일상용어로 설명하려면 챗GPT보다 한국어를 6500배 더 많이 학습했다거나 신문으로 환산하면 2700년치 분량을 학습했다는 등으로 설명합니다.

신문 2700년치 분량이라고 하면 확실히 굉장히 많아 보입니다. 신문의 역사가 4백년 남짓인데 2700년 분량이라니? 물론 글자 수를 바탕으로 추정한 분량이겠지요. 그러면 이게 얼마나 되는 분량인지 추정해 봅시다.

우선 신문 하루치는 얼마일까요? 한국기자협회에 올라온 기사에 따르면

신문 한 면에 평균 2백자 원고 20매 정도의 글자가 들어간다고 볼때 면당 4000자, 32면 기준으로 신문 1부에는 총 12만8000자의 정보가 담겨 있다는 계산이 나온다.

고 합니다. 그렇다면 2700년치는 2700 * 365 * 128000 = 273,969,000,000글자가 되겠습니다. 2739억 글자를 넘는 상당한 분량이네요. 토큰 수는 얼마나 될까요? 보통 한국어에 특화된 BBPE 토크나이저를 쓰면 대략 2글자가 1토큰으로 인코딩됩니다. 따라서 210B 토큰 분량이 됩니다. GPT3 학습에 300B 토큰, 최근의 하이퍼클로바X는 1.5T 토큰을 투입했다고 하니 210B 토큰은 상당한 분량입니다.

그런데 지금까지 한국어 기준으로 계산했지만 원래 일본어판에 투입되는 데이터를 얘기하고 있었습니다. 일본어 기준으로는 숫자가 달라질까요? 일본에서도 신문 한 부당 128000자 정도일까요? 일본 야후 지식인을 보면 11만~15만 정도 범위라고 합니다. 128000으로 계산해도 크게 어긋나지 않겠습니다. 토큰 수는 어떨까요? 일본어 특화 LLM 역시 1토큰에 2글자 정도라고 합니다. 한국어와 비슷합니다. 따라서 한국어 기준으로 계산해도 문제 없습니다.

그런데 최근 기사를 보면 하이퍼클로바X 일본어판은 1750억개 파라미터에 100억페이지 분량의 일본어 데이터를 학습했다고 합니다. 100억 페이지 분량은 얼마나 될까요? 보통 페이지라고 하면 A4 1페이지를 뜻하는데 워드프로세서에서 글자 수를 계산해 보면 1500~2000자 정도 나옵니다. 100억 페이지라면 15~20조 글자가 되겠네요. 토큰 수로는 750B~1T에 달하는 분량입니다. 하이퍼클로바X가 1.56T라고 하니 그만큼은 안 되어도 1/2~2/3는 됩니다. 다만 모델 크기의 20배만큼 데이터를 투입하는 것이 최적인데 이 분량은 175B (1750억)의 4~5배라서 데이터가 부족한 감이 있는데요, 아마도 나머지는 한국어와 영어로 채웠을 것으로 예상됩니다.

앞에서 계산한 210B와 차이가 3~4배 나는 이유는 무엇일까요? 신문 2700년치 분량을 학습했다는 기사는 2021년부터 나옵니다. 당시에는 모델의 크기도 1750억보다 작은 390억개 파라미터였습니다. 2년 동안 데이터를 3~4배 더 모았다고 보는 것이 자연스럽습니다.

profile
개발자

0개의 댓글