[NLP] GPT-J, GPT-NeoX

yoonene·2023년 2월 14일
0

ML/DL

목록 보기
8/17

GPT-3는 1750억개의 파라미터를 가졌고 공개되어 있지 않아 사용하기 어렵다.

GPT-3 같은 거대 언어모델을 사용할 수 있도록 EleutherAI에서 60억개의 파라미터를 가진 GPT-J와 200억개의 파라미터를 가진 GPT-NeoX를 오픈소스로 제공하고 있다.

GPT-J와 GPT-NeoX는 파라미터의 크기에 차이가 있어서 빠르게 inference하는 게 중요하다면 GPT-J를 쓰는 게 좋고 더 높은 성능의 결과가 중요하다면 GPT-NeoX를 사용하는 게 좋을 것 같다.

한국어 챗봇을 만들 때 EleutherAI의 polyglot-ko 모델을 사용하고 있는데, 이 모델도 GPT-NeoX 프레임워크로 학습된 pretrained model이다.
3.8b 모델의 경우 text를 generate하는 데 3~4초 정도 소요되고
1.3b 모델은 2초 정도 소요된다.
GPT-J-6b 모델은 6b라도 더 빠를 것이다.

profile
NLP Researcher / Information Retrieval / Search

0개의 댓글