Adversarial Mixing Policy for Relaxing Locally Linear Constraints in Mixup (EMNLP / 2021) paper review

semi·2022년 4월 3일
0

paper review

목록 보기
9/12
post-thumbnail

Contribution

  • 이 논문에서는 다른 auxiliary network를 사용하지 않고 Mixup에서 Locally Linear Constraint를 완화시키기 위하여 Adversarial Mixing Policy를 제안하였다.

  • 이는 Mixup의 mixing coefficient에 adversarial perturbation을 적용한 최초의 연구라고 한다.

  • 추가적인 실험으로 제안된 method를 분석하였고, AMP가 Mixup variants의 성능을 향상시켰으며 non-linear Mixup보다 error rate면에서 outperform함을 보였다고 한다.


Background: Linear nature of the networks

  • input x와 관련된 label y로 이루어진 training data (x;y)가 주어졌을 때, deep network는 다음과 같이 x로부터 y를 연결하는 mapping function을 학습한다.

  • network의 linear nature는 input의 작은 변화가 model의 output에도 영향을 미침을 의미한다.

  • 이러한 linearity는 network가 adversarial attack에 취약해지도록 한다.


Background: Relax the linear nature

  • network의 linear nature를 완화하기 위하여, adversarial training은 network가 다음과 같은 mapping function을 학습하도록 한다.

  • 이러한 training은 network의 linearity를 완화시키고 deep network의 robustness를 향상시킨다.

  • 그렇지만 model의 robustness와 generalization 능력 간에는 trade-off가 존재한다. (adversarial robustness와 standard accuracy 간의 trade-off)


Background: Locally linear constraints in Mixup

  • Mixup은 data augmentation에서 많이 사용이 되는 기법 중 하나이다.

  • Mixup은 다음과 같은 식으로 정의된다.

    (λ ∈ [0, 1] : mixing coefficient / m : mixing policy)
  • 이러한 synthetic data로 training을 하면, Mixup은 network의 input space에 Locally Linear Constraint를 부여하게 된다.

  • linearity는 다음과 같다.

    (∇λ : small change of λ)
  • 이러한 setting 하에, λ의 작은 변화는 output에 undesirable한 변화를 야기할 수 있다.

  • 결국에 이러한 strict linear constraint가 model의 regularization effect를 저하시키는 under-fitting을 야기할 수 있다.


Background: Why relaxing locally linear constraints

  • Mixup에서의 strict linear constraint를 완화하는 것은 under-fitting을 어느 정도 해결할 수 있고, 그럼으로써 regularization effect를 향상시킬 수 있다고 한다.

  • 이러한 underfitting은 synthetic data가 network에 corrupt하거나 ambiguous할 때 발생한다고 한다. 그러므로 만약 이러한 data들이 network에 compatible해진다면 (soft margin 등을 이용하여), under-fitting 문제가 해결될 수 있을 것이라고 한다.

  • adversarial training으로부터 영감을 받아, 이 논문에서는 Mixup에 작은 non-linearity를 부여하는 것이 constraint를 완화할 수 있을 것이라고 가정하고 있다.

    (∇λ : adversarial perturbation)

Method formulation

  • 이 논문에서 제안하는 method는 λ에 perturbation ∇λ를 project하기 위해 interpolated data에 대하여 loss를 maximize한다. 그리고 이 maximized된 loss를 다시 minimize한다.

  • adversarial training으로부터 영감을 받아, 이 method를 min-max-rand optimization 문제라고 칭하고 있다.


Rand operation

  • 우선 min-max-rand optimization에서 rand operation부터 살펴보자면, Rand operation은 두 category 간에 random한 interpolated data를 생성하는 것을 목적으로 한다.

  • 특히, 이는 training example 뿐 아니라 label도 linear하게 interpolation 취하여 synthetic data로 사용한다.

  • model f(x) = fk(gk(x))에서 gk은 input data를 hidden state로 mapping 시키는 부분이고, fk는 hidden state를 output으로 mapping 시키는 부분이라고 가정하자. 그러면 다음과 같이 systhetic data generation을 설명할 수 있다.

  • 위의 random interpolation 과정을 다음과 같이 reformulation하였다고 한다.

  • generated data로 train된 model은 이러한 data의 prediction의 불안정성을 줄일 수 있다고 한다. 그러므로 model은 unseen data에 대해 더 잘 generalize 될 수 있다고 한다.

Max operation

  • 다음으로 Max operation에서는 synthetic example과 synthetic label간에 작은 non-linearity를 부여하기 위하여 작은 adversarial perturbation을 부여한다.

  • 이는 곧 생성된 synthetic data가 Locally Linear Constraints를 strict하게 따르지 않게된다는 것을 의미한다.

  • 이를 위해, 이 논문에서는 adversarial training에서 많이 사용이 되는 Fast Gradient Sign Method (FGSM)과 유사하게 λ에 perturbation을 주는 algorithm을 제안하였다. 이 perturbation은 λ의 gradient ascend direction의 gradient이다.

  • FGSM과 달리 여기서는 input 대신에 λ에 perturbation을 적용한다.

  • 게다가, λ가 scalar값이기 때문에 ∇λ에 대하여 normalization을 취하지 않아도 된다고 한다.

  • λ'은 λ에 perturbation이 적용된 것을 의미한다. ∇λ는 λ의 clipped gradient이다.

  • perturbation은 adversarial direction에서의 gradient이고 다음과 같이 얻을 수 있다.

  • Mixup loss L은 다음과 같이 얻을 수 있다.

  • 여기서 gradient step size ε은 loss가 minimize되는 undesirable한 결과를 야기할 수 있다. 그래서 ε으로부터의 영향을 제거해야한다고 한다.


Min operation

  • Min operation은 constraint relaxed synthetic data의 loss를 minimize한다.

  • Min operation은 앞서 말한 ε의 영향을 없애기 위하여 이전 두 step에서 더 큰 loss를 minimize하는 것을 학습한다.

  • 이러한 방법은 model이 under-fitting될 risk를 줄이는 것에 도움이 된다고 한다.

  • mask는 다음과 같이 계산된다.

  • 이렇게 함으로써, 제안된 method는 다른 step size setting에 대해서도 steady하게 성능 향상을 보인다고 한다.


Min-Max-Rand operation


Experiments

여러 setting에서 improvement를 보이고 있다.


Visualization

다음 시각화를 통하여 기존의 Mixup보다 제안된 method를 사용하였을 때 underfitting이 어느 정도 해소되었음을 보여주고 있다.


Conclusion

  • Mixup에서의 Locally Linear Constraints를 완화하여 underfitting을 해결하기 위해 이 논문에서는 Adversarial Mixing Policy(AMP)를 제안하고 있다.

  • min-max-rand method는 synthetic examples와 synthetic labels간에 slightly non-linearity를 부여하여서 network가 몇몇 ambiguous한 data에 compatible해지고 그러므로 under-fitting을 줄일 수 있도록 하였다.

  • 다양한 실험을 통하여 AMP가 vanilla Mixup보다 좋은 performance를 내는 것을 보여주었다.

0개의 댓글