https://arxiv.org/pdf/2009.07118.pdf
기존의 pretrained된 language model을 활용하는 접근 방식은 사전 학습된 LM(language model)의 output layer를 교체하여 classifier를 학습하거나 주어진 task에 적절하게 가공하는 fine-tuning 방식이였음.
하지만, LM은 그 자체만으로도 아주 강력한 사전 학습 방식을 갖고 있고, cloze question 형태를 통해, unlabeled 데이터셋이나 라벨이 거의 붙어 있지 않은 데이터셋으로도 학습 가능함.
-> Cloze Question이란?
-> "the correct answer is _ " 와 같이 빈칸이 뚫어져 있는 문장
물론, GPT-3의 1750억개의 파라미터를 통해 SuperGLUE task에서 SOTA(State-of-the-art)를 달성하기는 했음. 그러나 주요한 단점들이 2가지 존재함.
-> 너무나 많은 파라미터가 필요하기 때문에, 현실 세계에서 활용 불가능.
-> GPT-3가 받아들일 수 있는 토큰의 개수는 2048토큰이라 그 이상은 받아들일 수가 없음.
따라서, PET(Pattern Exploiting Training) 방식을 고안하게 됨.
위의 표는 ALBERT + PET/iPET와 GPT-3의 비교 표
훨씬 적은 파라미터의 개수로 더 좋은 성능을 낼 수 있었음을 시사함.
생소하거나 어려운 용어들이 많아서 정리를 한 번 하는게 좋음.
Pattern-Verbalizer Pair 용어 정리
References : https://www.youtube.com/watch?v=q5FGZBqK-vc
-> 위의 그림과 밑의 용어 표기명은 다를 수 있음. PVP에 대한 전반적인 이해가 있어야 본 논문을 이해할 수 있음.
- M : masked language model
- T : masked language model에서 활용된 Vocabulary
-> mask token도 포함되어 있는 사전
- T* : 문장에 있는 모든 토큰 시퀀스를 포함. 최소 k개의 마스크 토큰과 일반 토큰을 포함함.
- : 아래 그림의 logits
how to make dataset