Exploring Lottery Prompts for Pre-trained Language Models

jihyelee·2023년 8월 17일

prompt-engineering

목록 보기

15/18

프롬프트 (prompt)
- 바람직한 output을 이끌어낼 수 있도록 input과 함께 사용되어 추가적인 문맥을 더해주는 역할
- 종종 태스크 설명(instruction), 예시(demonstration)를 함께 지칭하는 것으로 사용되기도 하나 해당 논문에서는 input을 감싸는 템플릿(template)을 지칭
- 프롬프트에 따라 성능의 변동성이 높다는 것이 잘 알려져있음

lottery prompts

탐색 범위(search space)
- 영어 단어 중 빈도수가 높은 200개의 단어를 추출
- 3개 단어의 데카르트 곱(Cartesian product)으로 템플릿 생성
  - 명사 X 동사 X (전치사 ∪ 형용사 ∪ 부사) X {[MASK]}
  - 총 76725개의 템플릿
언어모델이 템플릿을 적용한 input instance(데이터)에 대해 예측하게 함으로써 lottery prompt를 탐색
- 각 데이터마다 PLM으로부터 정답을 도출해내는 lottery prompt가 존재
- 심지어 66개의 class를 가진 Few-NERD에 대해서도 100%의 커버리지를 보임
- 평균 탐색 비용(search cost)은 30번의 API call을 넘지 않음
  - 하지만 클래스가 많거나, 문장 쌍을 다루거나, 여러 개의 도메인을 합친 NLI 태스크 등 태스크 난이도가 높을 경우 비용이 높아짐
lottery prompt가 없는 경우
- 문장 자체가 모호하거나 복잡한 추론을 필요로 할 경우
- 문장 내에 부정이 들어있으나 yes가 정답일 경우(=통계적으로 label과 input의 상관관계가 있을 경우)
사전학습 모델의 크기가 커질수록 lottery prompt가 존재할 확률이 높음

strong lottery prompts

prompt ensembling

학습하지 않은 데이터에 대해 강력한 lottery prompt를 일반화할 수 있는 방법
단순 투표 (simple voting)
- 최종 예측의 평균 결과를 활용
상호 정보 (mutual information)
- x, y, T (템플릿) 사이의 신뢰도를 활용
- 예측 확률의 엔트로피가 감소하는 템플릿을 선택
- 데이터가 적을 때 단순 투표보다 더 좋은 성능을 보임

데이터셋 (13개)
- GLUE benchmark
- Yelp Polarity, SNLI, AG's News, DBpedia, Few-NERD, SST-2
  - Few-NERD의 경우 66개의 class를 가진 분류 태스크
모델
- RoBERTa-large
- GPT-2

분류 태스크에 한정된 연구
- 다른 어려운 태스크에는 적용하기 어려운 방법으로 보임 (practicality가 아쉬움)
탐색 비용이 비효율적
- 태스크가 어려워지면 탐색 비용이 증가
  - RoBERTa의 경우 Few-NERD 데이터셋에 대해 평균 300번의 API call 필요
  - GPT-2의 경우 Few-NERD 데이터셋에 대해 평균 1076번의 API call 필요
자연어로 이루어진 프롬프트이나, 여전히 해석이 어려운 strong lottery prompt 존재

다소 brute-force의 측면이 강하지만, 각 데이터 인스턴스에 대해 잘 작동하는 lottery prompt가 있다는 사실을 밝히고 이에 대해 다양한 경험적 분석을 제시

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab