On the Effect of Pretraining Corpora on In-context Learning by a Large-scale Language Model

jihyelee·2023년 4월 16일
0

On the Effect of Pretraining Corpora on In-context Learning by a Large-scale Language Model
NAACL 2022

분야 및 배경지식

  • In-context learning
    • 대규모 언어모델에 몇 개의 예시와 태스크 설명을 주고 파라미터 업데이트 없이 주어진 인풋의 결과를 도출해내게끔 하는 방법
    • a few training examples and/or task descriptions are provided together with a new input to a large-scale LM for it to produce a target of this input, without requiring any parameter update
  • Domain relevance on pretraining corpus (사전학습 코퍼스에 대한 도메인 연관성)
    • 사전학습된 코퍼스가 downstream 태스크 코퍼스와 유사하다면 downstream 태크스에 대한 성능이 더욱 높아진다는 연구 존재
    • 하지만 기존 연구들은 사전학습된 언어모델이 downstream 태스크에 대해 파인튜닝된 경우가 대다수

문제

  • in-context learning이 언제 일어나는지에 대한 심도 깊은 연구 부족

실험 구성

  • 모델
    • 한국어 GPT-3
  • 데이터셋
    • Blog(블로그), Cafe(온라인 커뮤니티 카페), News(뉴스), Comments(댓글), KiN(지식인), Modu(국립한국언어연구원에서 제공하는 5개의 데이터셋), Ency(백과사전), Others
  • Downstream Tasks
    • NSMC: 영화 리뷰에 대한 감정 분류(binary)
    • KorQuAD: SQuAD 1.0과 유사한 기계독해
    • AI Hub translation: 한국어-영어 번역
    • YNAT: 7개 클래스를 가진 주제 분류

실험 결과 (분석)

  • Corpus Source
    • 어떤 도메인으로 학습하냐가 in-context learning ability에 중요
    • 예를 들어 Blog나 Modu 코퍼스 학습 시 in-context learning 성능이 좋으나, Cafe와 News 코퍼스는 아니었음
    • 코퍼스의 크기 또한 in-context learning 성능에 절대적이지 않음 (domain 따라 달라짐)
  • Corpus Combination
    • 단일 코퍼스에선 in-context learning ability가 구현되지 않던 경우라고 하더라도 multiple corpora 학습 시 in-context learning ability 생길 수 있음 (예: KiN + Ency)
    • 일반적으로 multi-task learning, corpora diversity가 높으면 in-context learning이 발생할 가능성이 높으나, 항상 그렇지는 않음
  • Domain Relevance
    • downstream task와 연관된 코퍼스를 사전학습하더라도 해당 태스크에 대한 in-context learning 성능이 보장되지는 않음
    • 사전학습 코퍼스와 다운스트림 코퍼스 사이에 겹치는 단어가 많다고 해서 in-context learning이 좋아지지 않음
  • Perplexity
    • 더 좋은 perplexity가 in-context learning ability를 보장한다고 알려져있으나, 그렇진 않음
    • 단일 모델 학습 시 in-context learning 정확도와 perplexity는 긴밀한 상관관계를 가지나, 여러 코퍼스로 사전학습한 경우 perplexity와 in-context learning 정확도 사이의 연관성이 떨어짐

한계

  • 다양한 데이터셋, 거대한 언어모델을 활용해 유의미한 실험결과를 보였으나 그 원인에 대한 분석이 아쉬움
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP), AI Researcher at LG CNS AI Lab

0개의 댓글