The binary classification task is trained on all tokens while the language modeling task is trained only on masked positions.
Sequence Contrastive Learning (sequence-level task)
- a contrastive learning objective (robust representations)
- different view (data augmentations)
- 90% of original input length : the major sequence meaning is preserved
Auxiliary Transformer
Small aux transformer : layer는 줄이지만, hidden dimension은 줄이지 않았음
Main transformer input값을 만들 때에는 dropout을 사용하지 않음.
Experiments
base
Wikipedia and BookCorpus (16GB)
32, 768 uncased BPE vocabulary (TUPE)
base++
OpenWebText, CC-News, and STORIES (160GB)
64, 000 cased BPE vocabulary
aux transformer
4-layer transformer in base/base++
6-layer in large++
Analysis
Pretraining task
SCL only?
RTD only, CLM only 비교했을 때에는 거의 미세한 차이만 있었으나, SCL+RTD < COCO-LM (SCL+CLM)
Network setting
Rel-Pos 가 MNLI를 제외한 다른 task에서 높은 성능을 보이기도함.
ELECTRA's aux : 12 layer, 256 hidden
Training signal
aux transformer 사용하지 않고, random replacements 사용하여 main transformer를 학습하고자 함.
converged aux < pretrain two transformers together
the auxiliary model gradually increases the difficulty of the corrupted sequences
CLM setup
CLM을 아예 사용하지 않고, LM으로만 진행하였을 때 성능이 상당히 낮아졌다. (SCL + LM)
Correct corrputed text, binary classification을 제거한 경우
Correct corrputed text, binary classification(같이 쓰이는 stop gradient를 사용하지 않았을 경우)
SCL
CLM
Original : 안바뀐 친구를 안바뀌었다고 찾아주는 것.
Replaced (7-8%) : 이상한 것을 발견하고(Copy acc), 제대로 바뀌게해줘야한다 (CLM acc)
ELECTRA는 language modeling task로 학습된 것이 아니기 때문에 prompt label word 생성이 어렵다.