OPT: Open Pre-trained Transformer Language Models

jihyelee·2023년 9월 15일

language-model

목록 보기

9/16

LLM (Large Language Model)
- 최근 많은 수의 파라미터를 가진 거대한 언어모델을 사전학습하여 프롬프트를 통해 이용하는 경우가 빈번
- 대표적으로 OpenAI의 챗GPT
- 하지만 이전과는 다르게 모델이 학습한 파라미터를 공개하지 않고 API를 통해 서비스하는 경우가 많음

OPT (Open Pre-trained Transformers)

125M ~ 175B 파라미터의 다양한 크기로 구성된 디코더 기반의 모델
- 125M ~ 66B 파라미터 크기의 모델은 모두에게 공개
- 175B 파라미터 크기의 모델은 연구 목적으로만 사용 가능
학습 환경
- 가중치 초기화의 경우 Megatron-LM을 참고, 평균 0과 표준편차 0.006을 갖는 정규분포 활용
- 활성화 함수로는 ReLU, 옵티마이저로는 AdamW, 가중치 감소(decay)는 0.1, 선형 학습률 스케줄링, 학습률 웜업은 처음 2000 스텝, 시퀀스 길이는 2048, ...
사전학습 코퍼스
- RoBERTa에서 사용된 데이터셋, Pile, PushShift.io Reddit 활용
  - RoBERTa의 경우 BookCorpus, Stories, CCNews 사용
  - Pile은 CommonCrawl, DM Mathematics, Project Gutenberg, OpenWebText2, Wikipedia 등을 포함
  - PushShift.io Reddit은 대화형 트리 형태로 구성되어 있어, 가장 긴 일련의 코멘트를 가진 스레드만을 활용하고 트리의 나머지 가지는 삭제
- 중복된 문서를 삭제하였으며, byte-level BPE 토크나이저 활용

16개의 NLP 태스크
- HellaSwag, StoryCloze, PIQA, ARC Easy and Challenge, OpenBookQA, WinoGrad, WinoGrande, SuperGLUE
평가기준
- 정확성 (accuracy)
10개 태스크에서 GPT-3와 유사한 성능, 3개 태스크에서 더 낮은 성능, WIC에선 더 좋은 성능
Chinchilla, Gopher는 파라미터 크기에 따라 다른 모델들과 유사한 성능을 보임
PaLM은 일반적으로 모든 환경에서 더 좋은 성능
- 사전학습 데이터의 품질과 다양성이 좋기 때문으로 추정

데이터셋
- ConvAI2, Wizard of Wikipedia, Empathetic Dialogues, Blended Skill Talk, Wizard of Internet
평가기준
- perplexity, unigram F1 (UF1) overlap
OPT-175B가 Reddit 2.7B 모델보다 좋은 성능, BlenderBot1과는 유사한 성능

혐오 발언 감지
- ETHOS에서 OPT-175B가 Davinci보다 좋은 성능
고정관념 인지
- CrowS-Pairs에서 OPT-17B가 종교를 제외하고 모든 분야에서 고정관념 편향성을 더 많이 보임
- StereoSet에서 Davinci와 OPT-175B가 유사한 성능
해로운 컨텐츠 생성
- RealToxicityPrompts에서 OPT-175B가 PaLM, Davinci 대비 더 높은 toxicity 보임

선언적 형태의 지시(declarative instruction)나 직설적인 질문(point-blank interrogatives)에 대해서는 성능이 낮음
- instruction learning에 대한 향후 연구 필요
기존의 여러 LLM과 유사하게 사실적으로 맞지 않는 문장을 생성해내거나, 편향적 혹은 해로운 문장을 생성하기도 함

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab