Exploring Lottery Prompts for Pre-trained Language Models

jihyelee·2023년 8월 17일
0

prompt-engineering

목록 보기
15/18

Exploring Lottery Prompts for Pre-trained Language Models
ACL 2023

분야 및 배경지식

  • 프롬프트 (prompt)
    • 바람직한 output을 이끌어낼 수 있도록 input과 함께 사용되어 추가적인 문맥을 더해주는 역할
    • 종종 태스크 설명(instruction), 예시(demonstration)를 함께 지칭하는 것으로 사용되기도 하나 해당 논문에서는 input을 감싸는 템플릿(template)을 지칭
    • 프롬프트에 따라 성능의 변동성이 높다는 것이 잘 알려져있음

문제점

  • 프롬프트는 언어모델을 활용하는 좋은 대안이나, 프롬프트에 따라 성능 변화가 심함

해결책

lottery prompts

  • 탐색 범위(search space)
    • 영어 단어 중 빈도수가 높은 200개의 단어를 추출
    • 3개 단어의 데카르트 곱(Cartesian product)으로 템플릿 생성
      • 명사 X 동사 X (전치사 ∪ 형용사 ∪ 부사) X {[MASK]}
      • 총 76725개의 템플릿
  • 언어모델이 템플릿을 적용한 input instance(데이터)에 대해 예측하게 함으로써 lottery prompt를 탐색
    • 각 데이터마다 PLM으로부터 정답을 도출해내는 lottery prompt가 존재
    • 심지어 66개의 class를 가진 Few-NERD에 대해서도 100%의 커버리지를 보임
    • 평균 탐색 비용(search cost)은 30번의 API call을 넘지 않음
      • 하지만 클래스가 많거나, 문장 쌍을 다루거나, 여러 개의 도메인을 합친 NLI 태스크 등 태스크 난이도가 높을 경우 비용이 높아짐
  • lottery prompt가 없는 경우
    • 문장 자체가 모호하거나 복잡한 추론을 필요로 할 경우
    • 문장 내에 부정이 들어있으나 yes가 정답일 경우(=통계적으로 label과 input의 상관관계가 있을 경우)
  • 사전학습 모델의 크기가 커질수록 lottery prompt가 존재할 확률이 높음

strong lottery prompts

  • 전체 데이터셋에 활용 가능한 강력한 lottery prompt 존재
  • 태스크의 성격마다 연관된 언어적 특징 존재

prompt ensembling

  • 학습하지 않은 데이터에 대해 강력한 lottery prompt를 일반화할 수 있는 방법
  • 단순 투표 (simple voting)
    • 최종 예측의 평균 결과를 활용
  • 상호 정보 (mutual information)
    • x, y, T (템플릿) 사이의 신뢰도를 활용
    • 예측 확률의 엔트로피가 감소하는 템플릿을 선택
    • 데이터가 적을 때 단순 투표보다 더 좋은 성능을 보임

평가

  • 데이터셋 (13개)
    • GLUE benchmark
    • Yelp Polarity, SNLI, AG's News, DBpedia, Few-NERD, SST-2
      • Few-NERD의 경우 66개의 class를 가진 분류 태스크
  • 모델
    • RoBERTa-large
    • GPT-2

한계

  • 분류 태스크에 한정된 연구
    • 다른 어려운 태스크에는 적용하기 어려운 방법으로 보임 (practicality가 아쉬움)
  • 탐색 비용이 비효율적
    • 태스크가 어려워지면 탐색 비용이 증가
      • RoBERTa의 경우 Few-NERD 데이터셋에 대해 평균 300번의 API call 필요
      • GPT-2의 경우 Few-NERD 데이터셋에 대해 평균 1076번의 API call 필요
  • 자연어로 이루어진 프롬프트이나, 여전히 해석이 어려운 strong lottery prompt 존재

의의

  • 다소 brute-force의 측면이 강하지만, 각 데이터 인스턴스에 대해 잘 작동하는 lottery prompt가 있다는 사실을 밝히고 이에 대해 다양한 경험적 분석을 제시
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab

0개의 댓글