CoDA: Contrast-Enhanced and Diversity-Promoting Data Augmentation for Natural Language Understanding (ICLR / 2021)

semi·2022년 4월 3일

Contrastive Learning Data augmentation NLP

paper review

목록 보기

10/12

Contribution

이 논문에서는 natural language understanding에서 새로운 Contrast-enhanced and Diversity-promoting Data Augmentation framework를 소개하고 있다.
또한 label-preserving transformation을 stacking하는 것이 더 informative한 sample을 생성할 수 있음을 발견하였다고 한다.
그리고 global relationship을 capture하기 위하여 contrastive learning을 사용하였다고 한다.
CoDA는 model의 generalization ability를 향상시켰으며 fine-tuning procedure에서도 significant한 gain을 얻었다고 한다.

Background: Data Augmentation

model의 robustness와 generalization ability를 향상시키기 위하여 NLP에서는 back-translation, mixup, c-BERT 등등의 data augmentation 기법이 사용되고 있다.
label preserving transformation은 class C에 속하는 sample x의 transformation x'도 여전히 class C에 속하는 것을 말한다.
model은 다음과 같이 origin training set과 augmented set으로부터 학습이 될 수 있다.
예를 들어, back translation 기법을 사용할 경우 다음과 같이 𝑥𝑖'= BackTrans(𝑥𝑖)를 얻을 수 있다. model은 x'과 x 간에 consistent한 prediction을 얻기 위하여 regularize된다. 이때 distribution discrepancy 𝑅𝑐𝑠(𝑝(𝑥𝑖), 𝑝(𝑥𝑖'))을 minimize한다. (보통 KL divergence를 이용)

Background: Adversarial Training

adversarial training method는 model의 robustness를 향상시키기 위하여 사용된다.
data augmentation과 비교하여서 adversarial training은 additional training example을 생성하는 데에 추가적인 domain knowledge가 요구되지 않는다. 그 대신에 model이 가장 잘못된 prediction을 만들어 낼 것 같은 adversarial example을 생성하는 것을 model에 전적으로 의존한다.
data augmentation과 유사하게 adversarial training은 전형적으로 cross-entropy 또는 consistency-based objective를 이용하여 학습된다.
가장 유명한 adversarial training based algorithm은 아래 adversarial loss와 virtual adversarial loss이다.

Diversity-Promoting Consistency Training

data augmentation과 adversarial training은 original training instance 주변에 neighbor를 생성한다는 점에서 같은 intuition을 공유한다.
그래서 이 논문에서는 이 두 방법이 서로 양립이 가능한지, 그렇다면 같이 사용하는 것이 model의 generalization ability를 향상시킬 수 있는지에 대하여 의문을 가졌다고 한다.
의문을 해결하기 위하여, 그리고 더 다양하고 informative한 augmented example을 생성하기 위하여 이 논문에서는 서로 다른 data transformation을 combine하는 몇몇 strategy를 제안하였다.
이 때 back translation, c-BERT word replacement, mixup, cutoff, adversarial training 5가지 방법이 고려되었다고 한다.
- Back translation은 machine translation에서 주로 사용이 되는 방법이다. 2개의 machine translation model을 이용하여 input example을 다른 pivot language로 변환하고 생성된 output을 다시 input language로 변환한다. 그렇게 생성된 output을 최종적인 augmented data로 사용하는 방식이다.
- C-BERT word replacement는 model이 label condition에 따라contextualized representation을 배우도록 conditional BERT를 학습하고, model이 MASK된 자리의 word를 추측하여 생성한 sentence들을 augmented data로 사용하는 방법이다.
- Cutoff는 input embedding에서 continuous span을 random하게 drop하여 augmented sample을 생성하는 방법이다.
- Mixup은 example과 label을 일정 비율 linear하게 interpolation 취하여 augmented sample을 생성하는 방법이다.
- Adversarial training은 input embedding에 perturbation을 적용하여 adversarial example을 생성하는 방법이다.
이러한 transformation 기법을 combine하는 데에 다음 strategy들을 제안하였다.
- Random Combination은 각 mini-batch에서 label-preserving transformation을 random하게 선택하여 적용하는 방식이다.
- Mixup interpolation은 embedding matrix에 대하여 linear interpolation을 취하는 방식이다.
- Sequential stacking은 순차적으로 transformation을 진행하는 방식으로 어떤 순서에 따라서는 사용이 불가능할 수도 있다.

이 논문에서는 back-translation을 취한 후 adversarial training을 하는 sequential stacking 기법을 선택하였다고 한다.
이러한 stacking operation의 consistency training objective는 다음과 같다.
위 식의 세번째 term의 consistency loss는 Jensen-Shannon divergence가 이용이 되었다. 그 이유로는 Jensen-Shannon divergence는 upperbound가 존재하고 symmetrict하기 때문에 KL divergence보다 상대적으로 stable하다는 장점이 있기 때문이라고 한다. Jensen-Shannon divergence 식은 다음과 같다.

위의 operation은 다음과 같은 figure로 표현될 수 있다.

Contrastive Regularization

consistency loss는 xi와 xi'이 가까워지도록하며 local regularization만 제공한다. xi'과 다른 training instance xj는 고려되지 않는다고 한다.
그렇기 때문에 더 나은 augmented example을 이용하기 위하여 contrastive learning objective를 사용하였다고 한다.
그래서 model은 augmented sample xi'이 다른 training sample xj보다는 xi에 가까워지도록 강요되었다고 한다.
또한 더 많은 양의 negative sample을 이용하기 위하여 history embedding을 저장하는 memory bank를 사용하였다고 한다.
그리고 encoder가 너무 빨리 변해서 loss가 불안정해지는 것을 막기 위하여 momentum encoder module을 사용하였다고 한다.
contrastive learning module은 다음과 같다.
fθ()와 fθ-()는 각각 query encoder와 key encoder를 의미한다.
parameter θ-는 momentum rule을 통하여 update된다.
sample xi와 augmented example xi'이 주어지면 query와 key는 다음과 같이 얻을 수 있다.
contrastive training objective는 다음과 같이 정의된다.

결과적으로 model은 가능한 많은 training examples을 고려하여 global하게 regularized되었다고 한다.
최종적인 loss는 다음과 같다.
위 loss는 consistency loss를 통해 local information을, contrastive loss를 통하여 global information을 얻었음에 가치가 있다고 한다.

Experiment

실험 결과를 통하여 multiple transformation이 더 성능향상을 보이며 contrastive learning의 필요성도 입증하고 있다.

Conclusion

이 논문에서는 Contrast-enghnced and Diversity promoting data Augmentation framework인 CoDA를 제안하고 있다.
또한 back-translation에 adversarial training을 stacking하는 기법이 더 informative한 augmented sample을 얻을 수 있음을 발견하였다고 한다.
그리고 contrastive learning을 이용하여 globally regularized된 모델을 얻을 수 있었다고 한다.
GLUE benchmark에서 CoDA가 몇몇 competitive data augmentation과 adversarial training baseline을 improve시켰다고 한다.

semi

이전 포스트

Adversarial Mixing Policy for Relaxing Locally Linear Constraints in Mixup (EMNLP / 2021) paper review

다음 포스트

CoDA: Contrast-Enhanced and Diversity-Promoting Data Augmentation for Natural Language Understanding (ICLR / 2021)

paper review

Contribution

Background: Data Augmentation

Background: Adversarial Training

Diversity-Promoting Consistency Training

Contrastive Regularization

Experiment

Conclusion

Adversarial Mixing Policy for Relaxing Locally Linear Constraints in Mixup (EMNLP / 2021) paper review

Boosting Contrastive Learning with Relation Knowledge Distillation (AAAI/ 2022)

0개의 댓글