OPT: Open Pre-trained Transformer Language Models

jihyelee·2023년 9월 15일
0

language-model

목록 보기
9/9

OPT: Open Pre-trained Transformer Language Models
arXiv 2022

분야 및 배경지식

  • LLM (Large Language Model)
    • 최근 많은 수의 파라미터를 가진 거대한 언어모델을 사전학습하여 프롬프트를 통해 이용하는 경우가 빈번
    • 대표적으로 OpenAI의 챗GPT
    • 하지만 이전과는 다르게 모델이 학습한 파라미터를 공개하지 않고 API를 통해 서비스하는 경우가 많음

문제점

  • 최근 많은 언어모델들이 API로만 접근이 가능할뿐, 전체 모델의 가중치(weight)는 접근할 수 없음

해결책

OPT (Open Pre-trained Transformers)

  • 125M ~ 175B 파라미터의 다양한 크기로 구성된 디코더 기반의 모델
    • 125M ~ 66B 파라미터 크기의 모델은 모두에게 공개
    • 175B 파라미터 크기의 모델은 연구 목적으로만 사용 가능
  • 학습 환경
    • 가중치 초기화의 경우 Megatron-LM을 참고, 평균 0과 표준편차 0.006을 갖는 정규분포 활용
    • 활성화 함수로는 ReLU, 옵티마이저로는 AdamW, 가중치 감소(decay)는 0.1, 선형 학습률 스케줄링, 학습률 웜업은 처음 2000 스텝, 시퀀스 길이는 2048, ...
  • 사전학습 코퍼스
    • RoBERTa에서 사용된 데이터셋, Pile, PushShift.io Reddit 활용
      • RoBERTa의 경우 BookCorpus, Stories, CCNews 사용
      • Pile은 CommonCrawl, DM Mathematics, Project Gutenberg, OpenWebText2, Wikipedia 등을 포함
      • PushShift.io Reddit은 대화형 트리 형태로 구성되어 있어, 가장 긴 일련의 코멘트를 가진 스레드만을 활용하고 트리의 나머지 가지는 삭제
    • 중복된 문서를 삭제하였으며, byte-level BPE 토크나이저 활용

평가

프롬프팅 & Few-shot

  • 16개의 NLP 태스크
    • HellaSwag, StoryCloze, PIQA, ARC Easy and Challenge, OpenBookQA, WinoGrad, WinoGrande, SuperGLUE
  • 평가기준
    • 정확성 (accuracy)
  • 10개 태스크에서 GPT-3와 유사한 성능, 3개 태스크에서 더 낮은 성능, WIC에선 더 좋은 성능
  • Chinchilla, Gopher는 파라미터 크기에 따라 다른 모델들과 유사한 성능을 보임
  • PaLM은 일반적으로 모든 환경에서 더 좋은 성능
    • 사전학습 데이터의 품질과 다양성이 좋기 때문으로 추정

대화

  • 데이터셋
    • ConvAI2, Wizard of Wikipedia, Empathetic Dialogues, Blended Skill Talk, Wizard of Internet
  • 평가기준
    • perplexity, unigram F1 (UF1) overlap
  • OPT-175B가 Reddit 2.7B 모델보다 좋은 성능, BlenderBot1과는 유사한 성능

편향 & Toxicity

  • 혐오 발언 감지
    • ETHOS에서 OPT-175B가 Davinci보다 좋은 성능
  • 고정관념 인지
    • CrowS-Pairs에서 OPT-17B가 종교를 제외하고 모든 분야에서 고정관념 편향성을 더 많이 보임
    • StereoSet에서 Davinci와 OPT-175B가 유사한 성능
  • 해로운 컨텐츠 생성
    • RealToxicityPrompts에서 OPT-175B가 PaLM, Davinci 대비 더 높은 toxicity 보임

한계

  • 선언적 형태의 지시(declarative instruction)나 직설적인 질문(point-blank interrogatives)에 대해서는 성능이 낮음
    • instruction learning에 대한 향후 연구 필요
  • 기존의 여러 LLM과 유사하게 사실적으로 맞지 않는 문장을 생성해내거나, 편향적 혹은 해로운 문장을 생성하기도 함

의의

  • 모델 파라미터를 전부 공개한 LLM
  • GPT-3와 유사한 성능을 보이나 1/7의 탄소 발자국만을 생성 (환경친화적)
  • hardware failure, loss divergence 등 학습 과정에서 발생한 다양한 문제 상황을 공유
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab

0개의 댓글