[논문리뷰] Generative Adversarial Perturbations, 2018, CVPR

HEEJOON MOON·2022년 2월 3일
0

논문 리뷰 및 실습

목록 보기
12/20

Abstract

본 논문은 adversarial examples을 만드는 generative model을 제시하고 있습니다. 이미지들을 adversarial examples로 변환하는 deep neural networks를 제시하면서, non-target과 target attack에 대해서 image-agnostic(이미지 무관)과 image-dependent(이미지 의존)적인 perturbations을 만들 수 있다고 합니다. 또한 classification과 semantic segmenentation 모델에 적용해보고, 둘 다 효과적인 공격이 가능하다고 합니다. 또한 매우 작은 크기의 perturbation으로도 높은 fooling rate를 달성할 수 있으며 iterative method보다 빠른 속도로 가능하다고 합니다.

1. Introduction

  • Image-dependent attack : dataset 속 이미지들에 따라 생성되는 perturbation이 달라집니다. 입력으로 natural image를 받아서 adversarial image를 출력합니다. 위 논문에서는 DNN을 통해 위의 과정을 진행합니다.
  • Universal attack : Universal perturbation은 fixed된 perturbation으로서, pre-trained된 network의 성능을 낮추며, 대부분의 natural images에 적용되어서 pre-trained model을 속일 수 있습니다. Iterative method와 달리, 본 논문에서는 학습가능한 신경망을 통해 universal perturbation을 구합니다.
  • Targeted attack : adversarial examples이 모델의 prediction을 specific target label로 나오게 합니다.
  • Non-target attack : adversarial examples의 예측값이 ground-truth label만 나오지 않도록 하는 공격입니다.

위의 공격방법들의 combinations을 이용하면, targeted universal, non-targeted universal, targeted imagedependent and non-targeted image-dependent. 총 4가지의 공격방법이 있습니다.

본 논문의 Contribution

  • universal, image-dependent perturbations을 만드는 unique한 framework를 제시합니다
  • 기존 iterative method을 개선한 unniversal perturbation 만드는 방법을 제시합니다
  • Effective한 target universal perturbations을 생성하는 첫 연구입니다.
  • Iterative 방법보다 빠르며, 최적화 기반의 방법을 사용합니다.

2. Related Works

2.1 Universal perturbations

Universal perturbation은 Moosavi et al이 처음 제시한 개념으로, fixed된 perturbation이 natural images에 더해져서 pre-trained 모델을 속이는 것입니다. Moosavi et al에서는 iterative method + image-dependent 방법을 이용하였는데, 즉 각 image마다 perturbation을 누적하여서 noramalize 하여서 UAP를 구하는 방식였습니다.

Image와 무관하게 perturbation을 구하는 연구도 있었는데, universal perturbation을 입력으로 받았을 때 mean activation의 product를 최대화하는
방식을 사용했습니다.

Targeted uninversal perturbation을 구하는 방법에 관한 선행 연구에서는 UAP를 image-dependent 방식을 이용하여 구한다는 norm제한에 맞게 clip하는 방식을 사용하였다고 합니다.

2.2 Image-dependent perturbations

수많은 접근 방법들이 존재한다고 합니다. 최적화 방법은 먼저 perturbation의 norm과 모델의 loss를 기반으로 한 cost function을 정의하고, pixel space에서 Adam optimizer등을 이용한 gradient ascent를 이용한 최적화를 진행하여 perturbation을 구하게 됩니다. 이 방법은 성능이 높으나, 시간이 오래걸린다는 단점이 있다고 합니다,

Ian Goodfellow는 FGSM(Fast Sign Gradient Method)를 이용하여 adversarial examples을 생성하는 방법을 제시했습니다. 이를 기반으로 한 다양한 방법들이 파생되었고 자세한 관련연구들은 논문 참고 바랍니다.

필자들은 training network를 이용한 adversarial examples을 생성하는 것에 초점을 두고, perturbation의 크기의 제한을 두는 것도 병행하였다고 합니다.

3 Generative Adversarial perturbations

network K는 C different classes를 분류하는 pre-trained된 신경망이라 가정하겠습니다. 각각의 입력 이미지 x에 대해서 K(x) ∈ {1, . . . , C}가 될 것입니다. 이미지들은 [0,1]사이의 범위로 normalized되었다고 하겠습니다. (Let N ⊂ [0, 1]n , natural images) perturbated된 images들을 a라 명명할 때, K(a) = ~c_x가 되는 a가 존재할 것이고, 이는 올바르게 분류되지 못한 것으로 생각할 수 있습니다.

3.1 Universal perturbations

필자들은 end-to-end trainable model을 이용한 perturbations을 생성하려 합니다. Network K에 대해 perturbation을 U_k라 하면, U_K = {U ∈ [0, 1]n | for most x ∈N : x + U ∈ A_K}라 할 수 있습니다. 본 논문서는 f : [0, 1]n → U_K의 변환, 즉 random pattern에서 universal perturbation을 생성하는 함수 f를 찾는 것을 목표로 하고 있습니다. Input pattern을 달리하면 실제로 다양한 set의 universal perturbation을 얻을 수 있다고 합니다. 이 과정은 마치 random vector를 넣어 image를 생성하는 GANs의 과정과 유사하게 보인다고도 합니다.

Generator의 아키텍쳐로는 본 논문에서는 U-Net기반과 ResNet기반을 사용하고 있는데, ResNet이 조금 더 좋은 성능을 보인다고 합니다.

위의 그림 1을 통해 학습과정을 살펴보면, 먼저 fixed pattern n Z ∈ [0, 1](sampled from uniform distribution U[0, 1])이 generator의 입력으로 들어가서 perturbation이 생성됩니다. fΘ(Z)는 fixed norm을 가지기 위해 scaled되며, 필자는 L2, Linf norm을 사용했다고 합니다. 이것이 natural image에 더해지고, 신경망이 학습한 범위를 맞추고자 [0,1] 범위로 clip을 진행한다고 합니다. clipped image x'이 신경망 k를 통과하여 k(x')을 얻게 됩니다.

Non-target attack의 경우에는 groudn truth의 one-hot encoded vector 1cx와 k(x')간 cross-entropy H(k(ˆx), 1cx)를 이용하여 아래와 같이 loss함수를 정의하였다고 합니다. 또한 least likely class로 예측하는 방법을 사용하면 다음과 같이도 정의할 수 있다고 합니다.
위 2가지의 non-target loss함수는 competitive한 결과를 내었다고 합니다

Target attack의 경우에는 target class의 one-hot vector로 예측하게끔 아래와 같이 loss를 만들 수 있다고 합니다.

3.2 Image-dependent Perturbations

f : N → A_K which generates a perturbed image f(x) ∈ A_K for each natural image x ∈ N
Image dependent perturbations을 생성하기 위해 필자들은 f(.)를 구하는 것을 목표로 하고 있습니다. Natural image N에 대해서 x ∈ N: K(fΘ(x)) = ~K(x)를 만족하는 mapping fΘ를 구하기 위해서 natural과 adversarial images의 차이를 fΘ로 구하는 접근을 사용한다고 합니다.

위의 그림처럼 Input image x가 들어가면 generetor를 통과하고 norm을 만족하기 위해 scale이 진행되면 image-dependent perturbation이 생성됩니다. 이것을 natural image에 더해주고 clip해준 x'를 network k에 통과시켜 output probabailities인 k(x')을 구합니다. 다음으로 위에서 언급했던 non-target/target loss를 이용하여 back-propagation을 진행하게 됩니다.

3.3 Fooling mulitiple networks


여러 pre-trained models을 속이는 generator를 만들기 위해서는 다음과 같이 loss함수를 각 model loss들의 linear combination으로 설계하면 된다고 합니다. {λ1, . . . , λm} is a set of weights chosen based on the difficulty of deceiving each target model.

4. Experiments on Classification

본 논문에서는 L2, Linf norm constraints를 주어서 실험을 진행하였다고 합니다

4.1 Universal perturbations

Non-target universal perturbation
[0, 255] range를 가지는 이미지들을 가지고, L2 norm은 2000 / Linf norm은 10의 threshold를 주어서 U-NEt, ResNet Generator를 훈련시켰다고 합니다.

Target universal perturbation
Target class역시 위와 같은 조건에서 실험하였고, 흥미로운 점으로는 universal perturbation이 target class와 닮게 형성되었다는 점입니다.

4.2 Image-dependent perturbations

필자는 제시한 방법이 Image-dependent한 perturbations을 만드는데 빠르고 정확하다고 합니다.
Non-target universal perturbation
ResNet generator를 이용하고, Linf norm을 metric으로 사용하였다고 합니다. 필자가 관찰한 바로는 perturvations들은 입력 이미지들에 대한 특징을 가지고 있다고 합니다. Target universal perturbation
이 역시 perturbation이 마찬가지로 target class와 input images과 닮은 특징을 가진다고 합니다.

4.3 Transferability and Fooling Multiple Networks

많은 선행연구들에서 하나의 모델을 속인 perturbation은 다른 모델에서도 적용이 가능하다는 특징이 밝혀졌습니다. 이러한 특징을 transferability라 명명하며, 이를 이용하여 black-box attacks도 가능합니다. 아래의 표는 non-target attack perturbation이 다른 모델에 적용했을 떄의 결과입니다. 표의 마지막은 앞서 언급한 multiple networks(vgg16, 19)에 대해 joint optimization을 진행한 결과라 하며, 두 모델에 높은 공격 성공률을 보여주고 있다고 합니다.

5. Experiments on Semantic Segmentation

5.1 Universal Perturbations

저자들은 먼저 challenging한 target attacks(target label map이 주어질 때)을 고려했다고 합니다. FCN-8 segmentation model을 대상으로, generator가 target label map과 닮은 perturbation을 만들어 fooling하는 것을 관찰하였다고 합니다.

5.2 Image-dependent Perturbations

Target attack의 경우, 저자들의 예상대로 constraint를 완화시킬수록 높은 공격 성공률을 보인다고 합니다.
또한 위의 표는 unviersality constraint를 가지지 않음으로써 작은 IOU를 가지는 결과를 나타내고 있다고 합니다.

6. Discussion and Future work

저자들은 4가지 공격방법에 대해 효율적으로 adversarial examples을 생성하는 방법을 제시하였다고 합니다. 또한 다른 모델간의 transferability를 보였다고도 합니다. Task-specific attack method를 대체할 수 있으ㅁ, 다른 task에도 사용할 수 있었다고 합니다.

profile
Robotics, 3D-Vision, Deep-Learning에 관심이 있습니다

0개의 댓글