modesta.log
로그인
modesta.log
로그인
OPT: Open Pre-trained Transformer Language Models
jihyelee
·
2023년 9월 15일
팔로우
0
Language Model
논문리뷰
0
language-model
목록 보기
9/16
OPT: Open Pre-trained Transformer Language Models
arXiv 2022
분야 및 배경지식
LLM (Large Language Model)
최근 많은 수의 파라미터를 가진 거대한 언어모델을 사전학습하여 프롬프트를 통해 이용하는 경우가 빈번
대표적으로 OpenAI의 챗GPT
하지만 이전과는 다르게 모델이 학습한 파라미터를 공개하지 않고 API를 통해 서비스하는 경우가 많음
문제점
최근 많은 언어모델들이 API로만 접근이 가능할뿐, 전체 모델의 가중치(weight)는 접근할 수 없음
해결책
OPT
(Open Pre-trained Transformers)
125M ~ 175B 파라미터의 다양한 크기로 구성된 디코더 기반의 모델
125M ~ 66B 파라미터 크기의 모델은 모두에게 공개
175B 파라미터 크기의 모델은 연구 목적으로만 사용 가능
학습 환경
가중치 초기화의 경우 Megatron-LM을 참고, 평균 0과 표준편차 0.006을 갖는 정규분포 활용
활성화 함수로는 ReLU, 옵티마이저로는 AdamW, 가중치 감소(decay)는 0.1, 선형 학습률 스케줄링, 학습률 웜업은 처음 2000 스텝, 시퀀스 길이는 2048, ...
사전학습 코퍼스
RoBERTa에서 사용된 데이터셋, Pile, PushShift.io Reddit 활용
RoBERTa의 경우 BookCorpus, Stories, CCNews 사용
Pile은 CommonCrawl, DM Mathematics, Project Gutenberg, OpenWebText2, Wikipedia 등을 포함
PushShift.io Reddit은 대화형 트리 형태로 구성되어 있어, 가장 긴 일련의 코멘트를 가진 스레드만을 활용하고 트리의 나머지 가지는 삭제
중복된 문서를 삭제하였으며, byte-level BPE 토크나이저 활용
평가
프롬프팅 & Few-shot
16개의 NLP 태스크
HellaSwag, StoryCloze, PIQA, ARC Easy and Challenge, OpenBookQA, WinoGrad, WinoGrande, SuperGLUE
평가기준
정확성 (accuracy)
10개 태스크에서 GPT-3와 유사한 성능, 3개 태스크에서 더 낮은 성능, WIC에선 더 좋은 성능
Chinchilla, Gopher는 파라미터 크기에 따라 다른 모델들과 유사한 성능을 보임
PaLM은 일반적으로 모든 환경에서 더 좋은 성능
사전학습 데이터의 품질과 다양성이 좋기 때문으로 추정
대화
데이터셋
ConvAI2, Wizard of Wikipedia, Empathetic Dialogues, Blended Skill Talk, Wizard of Internet
평가기준
perplexity, unigram F1 (UF1) overlap
OPT-175B가 Reddit 2.7B 모델보다 좋은 성능, BlenderBot1과는 유사한 성능
편향 & Toxicity
혐오 발언 감지
ETHOS에서 OPT-175B가 Davinci보다 좋은 성능
고정관념 인지
CrowS-Pairs에서 OPT-17B가 종교를 제외하고 모든 분야에서 고정관념 편향성을 더 많이 보임
StereoSet에서 Davinci와 OPT-175B가 유사한 성능
해로운 컨텐츠 생성
RealToxicityPrompts에서 OPT-175B가 PaLM, Davinci 대비 더 높은 toxicity 보임
한계
선언적 형태의 지시(declarative instruction)나 직설적인 질문(point-blank interrogatives)에 대해서는 성능이 낮음
instruction learning에 대한 향후 연구 필요
기존의 여러 LLM과 유사하게 사실적으로 맞지 않는 문장을 생성해내거나, 편향적 혹은 해로운 문장을 생성하기도 함
의의
모델 파라미터를 전부 공개한 LLM
GPT-3와 유사한 성능을 보이나 1/7의 탄소 발자국만을 생성 (환경친화적)
hardware failure, loss divergence 등 학습 과정에서 발생한 다양한 문제 상황을 공유
jihyelee
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab
팔로우
이전 포스트
Sparks of Artificial General Intelligence: Early experiments with GPT-4
다음 포스트
Self-Attention with Relative Position Representations
0개의 댓글
댓글 작성
관련 채용 정보