OpenAI의 GPT(Generative Pre-trained Transformer) 모델은 자연어와 코드를 이해할 수 있게 훈련되었다. GPT는 입력에 따라 텍스트를 출력할 수 있다. GPT로 전해지는 입력값은 "prompts"라고 한다. GPT는 코드 생성, 요약, 변환, 창의적 글쓰기 등 다양한 작업에 사용될 수 있다.
OpenAI는 text string을 입력으로 받고 embedding vector를 출력으로 하는 text embedding model을 제공한다.
Embedding은 search, clustering, recommendations, anomaly detection, classification 등등에 유용하다.
GPT와 임베딩 모델들은 token(chunk안의 텍스트)을 처리한다.
Token은 일반적으로 문자들의 나열을 나타낸다.
예를 들어, "tokenization"은 "token"과 "ization"으로 분해가 가능하다.
"the"와 같은 짧고 일반적인 단어는 하나의 토큰으로 나타낼 수 있다.
참고로 한 문장에서, 각 단어의 첫 토큰은 일반적으로 space character(공백 문자)로 시작한다.
대략적으로, 영어 텍스트에서 하나의 토큰은 4개의 문자 혹은 0.75단어를 가진다.
GPT모델에 관해서 한가지 기억해야할 제약사항 :
프롬프트와 생성된 결과의 합은 모델의 maximum context length를 넘어서는 안된다.
임베딩 모델(토큰을 출력하지 않는)의 경우, 입력은 모델의 maximum context length를 넘어서는 안된다.