대규모 언어모델에 몇 개의 예시와 태스크 설명을 주고 파라미터 업데이트 없이 주어진 인풋의 결과를 도출해내게끔 하는 방법
a few training examples and/or task descriptions are provided together with a new input to a large-scale LM for it to produce a target of this input, without requiring any parameter update
Domain relevance on pretraining corpus (사전학습 코퍼스에 대한 도메인 연관성)
사전학습된 코퍼스가 downstream 태스크 코퍼스와 유사하다면 downstream 태크스에 대한 성능이 더욱 높아진다는 연구 존재
하지만 기존 연구들은 사전학습된 언어모델이 downstream 태스크에 대해 파인튜닝된 경우가 대다수
문제
in-context learning이 언제 일어나는지에 대한 심도 깊은 연구 부족
실험 구성
모델
한국어 GPT-3
데이터셋
Blog(블로그), Cafe(온라인 커뮤니티 카페), News(뉴스), Comments(댓글), KiN(지식인), Modu(국립한국언어연구원에서 제공하는 5개의 데이터셋), Ency(백과사전), Others
Downstream Tasks
NSMC: 영화 리뷰에 대한 감정 분류(binary)
KorQuAD: SQuAD 1.0과 유사한 기계독해
AI Hub translation: 한국어-영어 번역
YNAT: 7개 클래스를 가진 주제 분류
실험 결과 (분석)
Corpus Source
어떤 도메인으로 학습하냐가 in-context learning ability에 중요
예를 들어 Blog나 Modu 코퍼스 학습 시 in-context learning 성능이 좋으나, Cafe와 News 코퍼스는 아니었음
코퍼스의 크기 또한 in-context learning 성능에 절대적이지 않음 (domain 따라 달라짐)
Corpus Combination
단일 코퍼스에선 in-context learning ability가 구현되지 않던 경우라고 하더라도 multiple corpora 학습 시 in-context learning ability 생길 수 있음 (예: KiN + Ency)
일반적으로 multi-task learning, corpora diversity가 높으면 in-context learning이 발생할 가능성이 높으나, 항상 그렇지는 않음
Domain Relevance
downstream task와 연관된 코퍼스를 사전학습하더라도 해당 태스크에 대한 in-context learning 성능이 보장되지는 않음
사전학습 코퍼스와 다운스트림 코퍼스 사이에 겹치는 단어가 많다고 해서 in-context learning이 좋아지지 않음
Perplexity
더 좋은 perplexity가 in-context learning ability를 보장한다고 알려져있으나, 그렇진 않음
단일 모델 학습 시 in-context learning 정확도와 perplexity는 긴밀한 상관관계를 가지나, 여러 코퍼스로 사전학습한 경우 perplexity와 in-context learning 정확도 사이의 연관성이 떨어짐
한계
다양한 데이터셋, 거대한 언어모델을 활용해 유의미한 실험결과를 보였으나 그 원인에 대한 분석이 아쉬움