Transformer 등장 이후 다양한 BERT, GPT, ELECTRA 등의 다양한 언어모델들이 나오면서 뛰어난 성능을 보이고 있다.
대부분 구글이나 OpenAI 와 같은 회사들의 경우, 고성능의 컴퓨팅 자원을 바탕으로 매우 큰 파라미터들을 가진 모델들을 뚝딱 만들어 내고 발표한다😅
언어모델(Language Model)은 언어를 모델링 한것으로 단어나 문장에 대해 확률을 부여한것이다. 주어진 단어들로 부터 다음 단어를 예측하기 위한 확률 값을 얻거나, 단어들 사이에서 마스킹된 단어를 예측하는 확률을 얻을 수 있는 모델들을 말한다.
예시
주어진 문장: "나는 언어 모델을 [mask]"
[mask]에 들어갈 수 있는 단어: 1) 만든다 2) 좋아한다 3) 먹는다
이러한 언어모델들은 얼마나 다음 단어를 잘 예측하는지에 따라 좋은 성능을 가졌다고 평가한다.
고성능의 컴퓨팅 자원은 없지만 나만의 언어모델을 만들어 보는 과정을 통해 Deep Learning 기반의 자연어 처리 부분에서 학습한 내용들을 정리해보는 시간을 가진다.