
사전학습된 언어 모델을 미세조정(fine-tuning; FT)하는 연구는 많은 발전을 이룩해왔고, 우수한 성능을 보여주었습니다. FT에는 크게 두가지 방법이 있는데, 첫번째로는 task-specific head가 사전학습된 모델 위에 추가되어 전체 모델을 task-specific objective에 따라 조정하는 task-oriented fine-tuning 방법이 있습니다. 두번째 방법으로는 prompt-oriented fine-tuning으로, 데이터 샘플들을 prompt token들을 포함한 시퀀스로 변환하고, downstream task를 사전학습 objective와 유사하게 학습합니다.
하지만, 각 downstream task마다 모델을 fine-tuning하고 저장하는 것은 많은 연산과 비용이 필요합니다. 따라서, 최근 제안된 prompt tuning(PT)는 전체 파라미터를 freeze한 후 soft prompt라고 하는 연속적인 embedding만을 학습합니다. PT는 soft prompt를 end-to-end로 학습할 수 있다는 장점과, downstream data가 충분하다면 FT성능과 유사한 성능을 가집니다. 하지만, 데이터가 적은 few-shot setting에서는 PT성능이 FT성능보다 크게 떨어집니다.
따라서 이 논문에서는 few-shot setting에서 사전학습된 언어 모델을 효율적, 효과적으로 prompt tuning하는 방법에 대해 탐구합니다. 특히, soft prompt을 unlabeled large corpora를 이용하여 사전학습시켜 PT를 위한 좋은 intialization을 만드는 framework인 PPT : Pre-trained Prompt Tuning framework를 제안했습니다.
먼저 few-shot learning을 위한 PT의 pilot experiment를 진행했습니다. hybrid prompt tuning, verbalizer selection, real word initialization, 이 세가지 방법을 비교했습니다. T5-XXL 모델, 100개의 prompt token을 이용하여 실험을 진행했습니다.
기존의 Hybrid prompt tuning은 hard와 soft prompt를 둘다 사용하고, soft prompt를 전체 모델과 함께 조정하는 방법입니다. 저자들이 실험에서 3개의 사람이 만든 hard prompt와 2개의 자동으로 생성된 hard prompt를 사용하고 soft prompt만 학습시켜 감성분석 task를 수행한 결과, hard prompt를 사용한 PT는 사용하지 않은 PT의 성능을 높이지만, FT보다는 성능이 낮은 것을 확인했습니다.
Verbalizer selection을 다양하게 하여 실험해본 결과, verbalizer에 따라 성능이 크게 변화하는 것을 확인했습니다. label과 대응하는 가장 흔한 단어들을 사용했을 때의 성능이 전체적으로 가장 좋았습니다.
저자들은 실제 단어의 embedding을 soft prompt를 초기화하는데 사용했습니다. 이전 연구들에서 3B보다 작은 모델들에서 이 방법이 잘 작동한다는 것을 밝혀냈으나, 이 실험을 통해 11B 모델을 사용한 SST-2와 BoolQ 태스크(few-shot)에서는 real word initialization이 오히려 성능을 해치는 것을 보였습니다.
파일럿 실험을 통해서 저자들은 PT성능에 영향을 끼치는 중요한 요인들이 존재함을 확인할수 있었습니다.
저자들은 few-shot 시나리오에서 효과적인 soft prompt를 학습하기 힘들다는 것을 보였습니다. soft prompt의 parameter initialization은 학습에 큰 영향을 끼치며, 기존 initialization 방식은 큰 언어모델의 성능에 미미한 향상 또는 큰 하락을 보여주었습니다.
반면 저자들은 soft prompt를 사전학습하여 좋은 intialization을 만드는 방법을 제안했습니다. 이는 몇몇 downstream task가 unlabeled pre-training corpora에서 사용된 self-supervised task와 관련이 있다는 것에 착안하였습니다.
분류 태스크는 pattern mapping , verbalizer 를 이용하여 pattern-verbalizer pair 로 나타낼 수 있습니다.
sentence-pair classification
multiple-choice classification
single-sentence classification
하지만, 이 방법은 다른 도메인의 다른 label개수가 있는 single-sentence classification으로 일반화될 수 없는 방법입니다.
앞에서 제안되었던 PVP들은 multiple-choice classification 포맷 하나로 통일될 수 있습니다.
downstream task마다 option개수와 길이가 다르므로, 개수가 2에서 16^2개, 길이가 50에서 20개로 다양한 pre-training sample을 포함하였습니다.
저자들은 영어와 중국어 task에 대해서 실험을 진행했는데, prompt pre-training시 영어의 경우 OpenWebText를 사용했으며, 중국어의 경우 WuDaoCorpora를 사용했습니다.
PT에서 영어 모델은 11B T5-XXL모델을 사용했으며, single-sentence classification에서는 RoBERTa-base를 사용했습니다. 중국어 모델은 11B CPM-2를 사용했습니다.
downstream task에 대한 셋업은 위와 같습니다.
FT성능은 다양한 사이즈의 모델의 결과를 기재했습니다.
위 결과에서 네개의 observation가 나타났습니다.
모든 포맷을 multiple choice classification포맷으로 통일하는 unified PPT는 PPT와 hybrid PPT와 비교할만한 수준의 성능을 달성했습니다. 하지만, 위의 표에서 고려된 데이터셋은 최대 5개의 label을 가진 데이터이므로, 추가적인 실험을 진행했습니다.
더 많은 label 옵션을 가진 데이터셋에서 unified PPT가 가장 높은 성능을 내고, FT를 크게 향상시키는 것을 확인할 수 있습니다.
학습데이터가 증가할수록 FT, PT, PPT의 성능의 변화를 분석했습니다.
CB, RACE-m데이터에서 비슷한 경향을 보이는 것을 확인했습니다. 적은 데이터 샘플에 대해서는 PPT가 PT보다 일관적으로 좋은 성능을 보이고, 샘플 개수가 어느정도 커지면 세 방법이 모두 비슷한 성능으로 수렴합니다.
전체 데이터가 주어졌을때의 FT, PT, PPT, unified PPT의 성능 비교도 해보았습니다.
PPT와 unified PPT가 PT보다 대부분의 데이터셋에서 좋은 성능을 얻은 것을 볼 수 있습니다.
PT는 FT보다 한 최적화 step에서 훨씬 빠르지만, 수렴속도가 느려 더 많은 학습시간이 필요합니다. 그런 점에 있어서 PPT는 PT보다 학습시간 측면에서도 효율적입니다.
이 논문에서는 few-shot setting에서 prompt tuning을 향상시킨 framework를 제안했습니다. 또한 task마다 다른 format을 하나의 format으로 통일하는 방법을 처음으로 제안했습니다. prompt를 사전학습시키는 self-supervised pre-training task를 디자인했고, pre-trained initialization을 기반으로 prompt tuning하였습니다. 해당 연구는 few-shot 시나리오에서 기존의 baseline보다 큰 성능향상을 이뤘고, 미래의 연구에 중요한 방향을 제시하였습니다.