On the Effect of Pretraining Corpora on In-context Learning by a Large-scale Language Model

jihyelee·2023년 4월 16일

In-context learning
- 대규모 언어모델에 몇 개의 예시와 태스크 설명을 주고 파라미터 업데이트 없이 주어진 인풋의 결과를 도출해내게끔 하는 방법
- a few training examples and/or task descriptions are provided together with a new input to a large-scale LM for it to produce a target of this input, without requiring any parameter update
Domain relevance on pretraining corpus (사전학습 코퍼스에 대한 도메인 연관성)
- 사전학습된 코퍼스가 downstream 태스크 코퍼스와 유사하다면 downstream 태크스에 대한 성능이 더욱 높아진다는 연구 존재
- 하지만 기존 연구들은 사전학습된 언어모델이 downstream 태스크에 대해 파인튜닝된 경우가 대다수

모델
- 한국어 GPT-3
데이터셋
- Blog(블로그), Cafe(온라인 커뮤니티 카페), News(뉴스), Comments(댓글), KiN(지식인), Modu(국립한국언어연구원에서 제공하는 5개의 데이터셋), Ency(백과사전), Others
Downstream Tasks
- NSMC: 영화 리뷰에 대한 감정 분류(binary)
- KorQuAD: SQuAD 1.0과 유사한 기계독해
- AI Hub translation: 한국어-영어 번역
- YNAT: 7개 클래스를 가진 주제 분류

Corpus Source
- 어떤 도메인으로 학습하냐가 in-context learning ability에 중요
- 예를 들어 Blog나 Modu 코퍼스 학습 시 in-context learning 성능이 좋으나, Cafe와 News 코퍼스는 아니었음
- 코퍼스의 크기 또한 in-context learning 성능에 절대적이지 않음 (domain 따라 달라짐)
Corpus Combination
- 단일 코퍼스에선 in-context learning ability가 구현되지 않던 경우라고 하더라도 multiple corpora 학습 시 in-context learning ability 생길 수 있음 (예: KiN + Ency)
- 일반적으로 multi-task learning, corpora diversity가 높으면 in-context learning이 발생할 가능성이 높으나, 항상 그렇지는 않음
Domain Relevance
- downstream task와 연관된 코퍼스를 사전학습하더라도 해당 태스크에 대한 in-context learning 성능이 보장되지는 않음
- 사전학습 코퍼스와 다운스트림 코퍼스 사이에 겹치는 단어가 많다고 해서 in-context learning이 좋아지지 않음
Perplexity
- 더 좋은 perplexity가 in-context learning ability를 보장한다고 알려져있으나, 그렇진 않음
- 단일 모델 학습 시 in-context learning 정확도와 perplexity는 긴밀한 상관관계를 가지나, 여러 코퍼스로 사전학습한 경우 perplexity와 in-context learning 정확도 사이의 연관성이 떨어짐

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab