Soft Labeling Affects Out-of-Distribution Detection of Deep Neural Networks

tacorico·2021년 10월 27일
2

TL;DR

  1. Soft Labeling이 OOD Detection 성능에 영향을 준다.
  2. Labeling Smoothing은 OOD Detection에 안 좋다.
  3. Knowledge Distillation를 사용하면 Student Modeld에서 Teacher Model의 OOD Detection 성능을 살리고 Outlier Exposure로 손상된 Test Accuracy 성능도 어느 정도 회복할 수 있다.

Abstract

Soft Labeling이 Generalization이나 Model Compression같은 부분에서는 일반적이지만, Soft Labeling의 OOD Detection 영향에 대해는 많이 연구되지 않음. 이 논문에서는 Soft Labeling은 OOD Detection 성능에 영향을 미침. 특히 Soft Labeling으로 incorrect classes의 output의 출력을 규제하는 것이 영향을 좋아지게 만들 수도 있고, 나빠지게 만들 수도 있다.

Introduction

DNN 모델이 일반적으로 unrecognizable하거나 OOD sample에 대해서 over-confident하는 경향을 가짐. 이건 Model의 Safety와 연관이 있는 문제이다. 이 문제를 해결하기 위한 일반적인 방법은 post-training으로 Outlier Exposure를 하는 것.

Soft Labeling에 대해서 조금 말해보자면, 다양한 목적으로 DNN을 학습하기 위한 출력 규제의 일반적인 트릭이 되었다.

  1. Label Smoothing은 DNN의 Test Accuracy를 개선하고 overfitting을 방지한다.
  2. Knowledge Distillation은 Soft Labeling의 일종인데 Teacher Model의 크기를 압축하거나 Student Networks의 accuracy를 개선함.

Assumption: Incorrect classes의 soft labeling으로 prediction을 규제하는 것은 DNN의 OOD Detection 성능을 결정.
Evidences

  1. Label Smoothing은 DNN의 OOD Detection 성능을 하락시킴.
  2. Teacher model로 생성된 Soft Label는 Student Model로 OOD Detection 성능을 추출함. 특히, Outlier Exposure로 손상된 Test Accuracy가 Student Model로 가면서 회복되거나 개선된 모습을 보여줌. 그러면서도 OOD Detection Performance는 보존됨.

Preliminaries

Outlier Exposure

논문 링크
논문 리뷰 링크
Key Concept은 OOD Sample을 가지고 Uniform Distribution을 예측하게 학습하는 것이다. 조금 쉽게 생각해보면, In-domain으로 학습된 모델이 기존에 있을거고, Introduction에서 제기된 대로 OOD Sample에 대해서 over-confident한 문제를 가지고 있을 것이다. 그렇기 때문에 모델이 자신이 잘 모르는 것(OOD)에 대해서 자신 있게 이거다!라고 하지 못하게 하려면 자신 없게 예측(모든 class에 대해서 동일한 값을 가지는 Uniform Distribution을 예측)하는 방향으로 학습시켜야 한다. 하지만 이렇게 하면 기존 모델의 성능(여기서는 Test Accuracy)에 악영향을 미치게 된다.
Outlier Exposure로 얻게 되는 것: OOD Detection 성능
Outlier Exposure의 한계 두 가지

  1. Test Accuracy가 떨어지는 경향을 보임
  2. 모든 OOD에 대해 대응할 수 없음.

Soft Labeling

Soft labeling은 다음 수식으로 정의할 수 있다.

q~=(1α)q+aqˊ\tilde{q}=(1-\alpha)q+a\acute{q}

qq: one-hot ground truth of a training sample xx
α\alpha: hyper-paramter for soft labeling
qˊ\acute{q}: qˊ[0,1]K\acute{q}\in[0,1]^K, argmax(q~)=argmax(q)argmax(\tilde{q}) = argmax(q), i=1Kq~=1\sum_{i=1}^K \tilde{q}=1를 만족하는 qˊ\acute{q}
조금 더 쉽게 생각하면, 정답에 영향을 주지 않는 범위 내에서(argmax(q~)=argmax(q)argmax(\tilde{q}) = argmax(q)) hyperparameter α\alpha로 조절을 한 값이라고 생각할 수 있다. 여기서 qˊ\acute{q}는 범위 조건만 만족하면 된다는 것에 주목하자. Label Smoothing같은 특수한 케이스에 한정해서 생각하지 말 것.

여기서 소개하는 Soft Labeling의 예는 label smoothing, knowledge distillation을 소개한다.

Label Smoothing and OOD Detection

앞에서 일단 label smoothing이 test accuracy와 ECE를 개선시키지만 OOD Detection에 악영향을 미친다고 했다. 왜 안 좋아질까? Label Smoothing을 하면 ID와 OOD 데이터를 구분할 수 없게 만든다. 두 가지 관점에서 이유를 찾을 수 있다.

첫번째는, 수식을 보면 label smoothing이 ID 샘플에 대한 outlier exposure로 볼 수 있다. Outlier exposure를 다시 생각해보면 OOD 데이터를 가지고 uniform distribution을 예측하도록 학습하는 것인데, label smoothing을 하면 정답 레이블의 확률을 일부 깎아내고 다른 label에 나눠주기 때문에 uniform distribution의 방향으로 바뀌게 된다. 이러한 관점에서 Label Smoothing은 ID 샘플에 대한 Outlier Exposure라고 해석할 수 있다. 혼동하지 말아야 할 부분은, 앞에서 Outlier Exposure가 OOD Detection 성능에 도움이 된다고 했던 것인데, 이는 OOD Data에 대한 추가적인 OE 학습이고 여기서 말하는 것은 ID Sample을 학습할 때 부터 Smoothed Label을 사용하므로 모델이 ID sample과 OOD sample을 구분하기 어려워지는 것이다.

두번째는, Knowledge Distillation이 Label Smoothing이 OOD Detection에 주는 악영향에 대한 다른 관점을 제공한다. Label Smoothing은 ID samples를 OOD로 학습하고 모든 ID sample에 대해서 Uniform Distribution을 예측하는 teacher model의 Knowledge Distillation이다. 따라서, incorrect classes에 대한 teacher model에서 생성된 Soft Labels은 student model의 OOD Detection 성능을 결정한다고 가정하고, 다음 절에서 경험적으로 확인할 수 있다.

Knowledge Distillation and OOD Detection

앞절의 내용대로, teacher model에 의해 생성된 soft label이 student model의 OOD detection 성능을 결정한다. 실험에 의하면 teacher model과 student model은 데이터셋에 상관없이 비슷한 AUROC을 가지는 것을 보여준다. 또한, student model은 ID sample을 soft label로 학습되었고, 어떠한 OOD sample도 직접적으로 student model에 학습되지 않았다. 이 절의 핵심은, OOD-robust한 teacher model을 만드는 것이 문제지, 일단 만들고 Soft Labeling을 통해 Knowledge Distisllation을 하면 OOD Detection 성능이 student model에 잘 전달된다. 이 실험은 동일 구조의 teacher <-> student 뿐만 아니라 다른 구조의 teacher <-> student 구조에도 유효하다. 이런 결과들은 Soft Labeling 위의 OOD Detection 성능은 model-agnostic하다는 것이다.

마지막으로, OOD Detection 성능과는 별개로 OOD sample로 post-training을 하면 원래 classification accuracy가 하락하는 경향을 보인다. 하지만, student model에서 test accuracy와 ECE가 Outlier Exposure 이전과 대비하여 비슷하거나 개선된 모습을 보여준다. 이 결과는 soft labeling에 의한 것으로, soft labeling이 어떤 종류던지 모델의 overfitting 문제에 도움을 주기 때문이다. 적절한 soft labeling의 사용이 OOD Detectino 성능 개선 뿐만 아니라, unseen ID sample(test set)에서의 accuracy와 confidence calibration에도 도움을 준다.

profile
우당탕탕 자연어 일기

2개의 댓글

comment-user-thumbnail
2021년 10월 27일

유익한 글이네요!

1개의 답글