[T0] Multitask Prompted Training Enables Zero-Shot Task Generalization

jihyelee·2023년 5월 1일
0

language-model

목록 보기
6/16

Multitask Prompted Training Enables Zero-Shot Task Generalization
ICLR 2022

분야 및 배경지식

  • Multitask learning
    • 한 번의 지도학습 과정에 여러 개의 태스크를 섞어 함께 학습하는 방법
  • Prompt
    • 자연어처리 태스크를 자연어 인풋에 대한 자연어 응답의 형태로 재구성하는 방식

문제

  • 거대한 언어모델은 사전학습 과정에서 내재적인(implicit) multitask learning을 통해 새로운 태스크에 잘 일반화한다는 사실이 알려짐
  • 명시적인 multitask learning이 zero-shot 일반화에 미치는 영향에 대한 연구는 미비

해결책

  • 명시적인(explicit) multitask learning을 통해 zero-shot 일반화 성능 향상
    • 목표 1. 규모가 크지 않더라도 학습하지 않은(held-out) 태스크에 더욱 잘 일반화
    • 목표 2. 프롬프트의 단어 선택에 대해 더욱 강건(robust)
  • 다양한 형태의 데이터셋을 통합된 형태의 프롬프트로 재구성
    • 상호작용하며 프롬프트를 작성할 수 있는 인터페이스 생성
    • 어떤 프롬프트가 효과적인지에 대한 질문은 아직 미해결 상태이기 때문에 프롬프트의 다양성을 보장

평가

  • 학습을 위한 태스크
    • Multiple-Choice QA (선다형 질의응답)
    • Extractive QA (context 이용해 질의응답)
    • Closed-Book QA (context 없이 질의응답)
    • Sentiment (감성)
    • Topic Classification (주제 분류)
    • Structure-To-Text
    • Summarization (요약)
    • Paraphrase Identification (의역 파악)
  • 테스트를 위한 태스크
    • Sentence Completion (문장 완성)
    • Natural Language Inference (자연어 추론)
    • Coreference Resolution (상호참조해결)
    • Word Sense Disambiguration (단어의미 명확화)
    • BIG-Bench
  • 모델
    • encoder-decoder 구조의 T5 이용해 학습
    • T0: multitask로 학습한 메인 모델
    • T0+: T0에 GPT-3 평가 데이터셋을 학습에 추가
    • T0++: T0+에 SuperGLUE를 학습에 추가

의의

  • 명시적으로 다양한 태스크에 대해 프롬프트를 학습한 경우 zero-shot 일반화 성능이 좋아짐을 밝힘 (multitask prompted training)
  • 데이터셋마다 더 많은 프롬프트를 학습하는 것이 held-out 태스크에 더 좋고 강건한 일반화 성능을 보임 (more prompts per dataset)
  • 하지만 데이터셋의 수를 늘리는 게 프롬프트의 강건성을 일관적으로 높이지는 않음 (prompts from more dataset)

한계

  • zero-shot 일반화에 대해 대량의 데이터를 활용해 다양한 탐구를 하였으나, 상식 선에서 이해할 만한 결과들을 도출 (novelty 문제)
  • 데이터셋의 수와 프롬프트 강건성 사이의 상관관계에 대해서 더 깊은 탐구가 없어 아쉬움
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab

0개의 댓글

관련 채용 정보