OPT: Open Pre-trained Transformer Language Models

jihyelee·2023년 9월 15일
0

language-model

목록 보기
9/16

OPT: Open Pre-trained Transformer Language Models
arXiv 2022

분야 및 배경지식

  • LLM (Large Language Model)
    • 최근 많은 수의 파라미터를 가진 거대한 언어모델을 사전학습하여 프롬프트를 통해 이용하는 경우가 빈번
    • 대표적으로 OpenAI의 챗GPT
    • 하지만 이전과는 다르게 모델이 학습한 파라미터를 공개하지 않고 API를 통해 서비스하는 경우가 많음

문제점

  • 최근 많은 언어모델들이 API로만 접근이 가능할뿐, 전체 모델의 가중치(weight)는 접근할 수 없음

해결책

OPT (Open Pre-trained Transformers)

  • 125M ~ 175B 파라미터의 다양한 크기로 구성된 디코더 기반의 모델
    • 125M ~ 66B 파라미터 크기의 모델은 모두에게 공개
    • 175B 파라미터 크기의 모델은 연구 목적으로만 사용 가능
  • 학습 환경
    • 가중치 초기화의 경우 Megatron-LM을 참고, 평균 0과 표준편차 0.006을 갖는 정규분포 활용
    • 활성화 함수로는 ReLU, 옵티마이저로는 AdamW, 가중치 감소(decay)는 0.1, 선형 학습률 스케줄링, 학습률 웜업은 처음 2000 스텝, 시퀀스 길이는 2048, ...
  • 사전학습 코퍼스
    • RoBERTa에서 사용된 데이터셋, Pile, PushShift.io Reddit 활용
      • RoBERTa의 경우 BookCorpus, Stories, CCNews 사용
      • Pile은 CommonCrawl, DM Mathematics, Project Gutenberg, OpenWebText2, Wikipedia 등을 포함
      • PushShift.io Reddit은 대화형 트리 형태로 구성되어 있어, 가장 긴 일련의 코멘트를 가진 스레드만을 활용하고 트리의 나머지 가지는 삭제
    • 중복된 문서를 삭제하였으며, byte-level BPE 토크나이저 활용

평가

프롬프팅 & Few-shot

  • 16개의 NLP 태스크
    • HellaSwag, StoryCloze, PIQA, ARC Easy and Challenge, OpenBookQA, WinoGrad, WinoGrande, SuperGLUE
  • 평가기준
    • 정확성 (accuracy)
  • 10개 태스크에서 GPT-3와 유사한 성능, 3개 태스크에서 더 낮은 성능, WIC에선 더 좋은 성능
  • Chinchilla, Gopher는 파라미터 크기에 따라 다른 모델들과 유사한 성능을 보임
  • PaLM은 일반적으로 모든 환경에서 더 좋은 성능
    • 사전학습 데이터의 품질과 다양성이 좋기 때문으로 추정

대화

  • 데이터셋
    • ConvAI2, Wizard of Wikipedia, Empathetic Dialogues, Blended Skill Talk, Wizard of Internet
  • 평가기준
    • perplexity, unigram F1 (UF1) overlap
  • OPT-175B가 Reddit 2.7B 모델보다 좋은 성능, BlenderBot1과는 유사한 성능

편향 & Toxicity

  • 혐오 발언 감지
    • ETHOS에서 OPT-175B가 Davinci보다 좋은 성능
  • 고정관념 인지
    • CrowS-Pairs에서 OPT-17B가 종교를 제외하고 모든 분야에서 고정관념 편향성을 더 많이 보임
    • StereoSet에서 Davinci와 OPT-175B가 유사한 성능
  • 해로운 컨텐츠 생성
    • RealToxicityPrompts에서 OPT-175B가 PaLM, Davinci 대비 더 높은 toxicity 보임

한계

  • 선언적 형태의 지시(declarative instruction)나 직설적인 질문(point-blank interrogatives)에 대해서는 성능이 낮음
    • instruction learning에 대한 향후 연구 필요
  • 기존의 여러 LLM과 유사하게 사실적으로 맞지 않는 문장을 생성해내거나, 편향적 혹은 해로운 문장을 생성하기도 함

의의

  • 모델 파라미터를 전부 공개한 LLM
  • GPT-3와 유사한 성능을 보이나 1/7의 탄소 발자국만을 생성 (환경친화적)
  • hardware failure, loss divergence 등 학습 과정에서 발생한 다양한 문제 상황을 공유
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab

0개의 댓글

관련 채용 정보