[Paper Review] A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks

gnoeyheat·2021년 3월 5일
0

Abstract

예가 잘 못 분류되었는지 또는 out-of-distribution 인지 감지하는 두 가지 관련 문제를 고려합니다. 소프트맥스 분포의 확률을 활용하는 간단한 기준선을 제시합니다. 올바르게 분류된 예제는 잘 못 분류된 예제와 out-of-distribution 예제보다 최대 소프트맥스 확률이 더 큰 경향이 있어 탐지가 가능합니다. 우리는 컴퓨터 비전, 자연어 처리 및 자동 음성 인식의 여러 작업을 정의하여 성능을 평가하고 이 기준의 효과를 모두에게 보여줍니다. 그런 다음 기준선이 때때로 초과될 수 있음을 보여 주어 이러한 저조한 탐지 작업에 대한 향후 연구의 여지를 보여줍니다.

1. Introduction

기계 학습 분류기가 실제 작업에 사용되는 경우 훈련 및 테스트 분포가 다를 때 실패하는 경향이 있습니다. 설상가상으로 이러한 분류기는 고 신뢰도 예측을 제공하여 조용히 실패하는 경우가 많지만 매우 부정확합니다 (Goodfellow et al., 2015; Amodei et al., 2016). 분류자가 착각할 가능성이 있는 시기를 표시하지 않으면 채택이 제한되거나 심각한 사고가 발생할 수 있습니다. 예를 들어, 의료 진단 모델은 사람의 개입을 위해 어려운 예를 표시해야 하는 경우에도 높은 신뢰도로 일관되게 분류할 수 있습니다. 결과적으로 플래그가 지정되지 않은 잘못된 진단은 의학에서 미래의 기계 학습 기술을 차단할 수 있습니다. 보다 일반적이고 중요한 것은 모델에 오류가 있는 시기를 추정하는 것이 AI 안전에 큰 관심사입니다 (Amodei et al., 2016).

소프트맥스 확률은 빠르게 성장하는 지수 함수로 계산되기 때문에 이러한 신뢰도가 높은 예측은 소프트맥스에 의해 자주 생성됩니다. 따라서 소프트맥스 입력, 즉 로짓에 대한 사소한 추가는 출력 분포에 상당한 변화를 가져올 수 있습니다. softmax 함수는 표시기 함수의 부드러운 근사치이므로 out-of-distribution 예제에 대해 균일한 분포가 출력되는 경우는 드뭅니다. 실제로 MNIST 이미지 분류기에 입력된 임의의 가우스 노이즈는 나중에 보여 주듯이 "예측 신뢰"또는 91%의 예측 클래스 확률을 제공합니다. 실험 전반에 걸쳐 소프트맥스 분포의 예측 확률이 신뢰도와 직접적으로 일치하지 않음을 확인했습니다. 이것은 연구자들의 많은 일화적 증거와 일치합니다 (Nguyen & O'Connor, 2015; Yu et al., 2010; Provost et al., 1998; Nguyen et al., 2015)

그러나 이 작업에서 우리는 또한 부정확하고 out-of-distribution 예제의 예측 확률이 올바른 예제에 대한 예측 확률보다 낮은 경향이 있음을 보여줍니다. 따라서 정확한 또는 샘플 내 예제에 대한 예측 확률 통계를 캡처하면 예제가 오류 상태인지 비정상인지를 감지하는 데 충분합니다. 단, 분리된 예측 확률은 오해의 소지가 있을 수 있습니다.

이러한 예측 확률은 감지 기준을 형성하며 다양한 컴퓨터 비전, 자연어 처리 및 자동 음성 인식 작업을 통해 그 효과를 입증합니다. 이러한 예측 확률은 지속적으로 유용한 기준선을 생성하지만 때로는 덜 효과적이며 개선의 여지가 있습니다. 향후 탐지 연구에 대한 아이디어를 제공하기 위해 일부 (전부는 아님) 작업에서 기준선을 능가하는 한 가지 방법을 제공합니다. 이 새로운 방법은 신경망의 입력 재구성 품질을 평가하여 예제가 비정상인지 확인합니다.

기본 방법 외에도 이 작업의 또 다른 기여는 오류의 자동 감지 및 out-of-distribution 예를 평가하기 위한 표준 작업 및 평가 메트릭을 지정하는 것입니다. 우리는 세 가지 연구 영역에서 잘 수행되는 표준 신경망 아키텍처를 사용하여 잘 연구된 많은 작업을 사용합니다. out-of-distribution 감지를 위해 다른 데이터 세트의 이미지를 사용하고 입력을 현실적으로 왜곡하는 것과 같이 테스트 시간에 out-of-distribution 예제를 제공하는 방법을 제공합니다. 다른 연구자들이 향후 작업에서 이러한 작업을 수행하고 기준선의 성능을 능가하기를 바랍니다.

요약하면 소프트맥스 분류기 확률은 신뢰도 추정치로 직접적으로 유용하지 않지만 모델 신뢰도를 추정하는 것은 이전에 믿었던 것만큼 암울하지 않습니다. 소프트맥스 분포에서 파생된 간단한 통계는 컴퓨터 비전, 자연어 처리 및 음성 인식 작업에 걸친 실험 결과에서 입증된 바와 같이 예제가 잘 못 분류되었는지 아니면 훈련 데이터와 다른 분포에서 왔는지 확인하는 놀랍도록 효과적인 방법을 제공합니다. 이는 향후 연구가 능가하기를 바라는 오류 및 out-of-distribution 예제를 감지하기 위한 강력한 기준을 만듭니다.

2. Problem Formulation and Evaluation

이 논문에서는 두 가지 관련 문제에 관심이 있습니다. 첫 번째는 error and success prediction 입니다. 훈련된 분류기가 특정 테스트 예에서 오류를 만들지 여부를 예측할 수 있습니까? 말한 예를 올바르게 분류할지 예측할 수 있습니까? 두 번째는 in- and out-of-distribution detection 입니다. 테스트 예제가 학습 데이터와 다른 분포에 있는지를 예측할 수 있습니까? 동일한 분포 내에 있는지 예측할 수 있습니까? 1 아래에서는 이 두 문제를 해결하기 위한 간단한 기준을 제시합니다. 솔루션을 평가하기 위해 두 가지 평가 지표를 사용합니다.

두 가지 평가 측정 항목을 언급하기 전에 먼저 감지기를 비교하는 것이 정확도를 사용하는 것만큼 간단하지 않다는 점에 유의하세요. 감지를 위해 두 가지 클래스가 있으며 감지기는 양성 및 음성 클래스 모두에 대한 점수를 출력합니다. 네거티브 클래스가 포지티브 클래스보다 훨씬 더 가능성이 높은 경우 모델은 항상 네거티브 클래스를 추측하고 높은 정확도를 얻을 수 있으며 이는 오해의 소지가 있을 수 있습니다 (Provost et al., 1998). 그런 다음 일부 긍정 예제가 올바르게 분류되도록 점수 임계 값을 지정해야 하지만 이는 위음성 (fn)과 위양성 (fp) 간의 균형에 따라 달라집니다.

이 문제에 직면하여 우리는 임곗값 독립적인 성능 평가인 AUROC (Area Under the Receiver Operating Characteristic curve) 메트릭을 사용합니다 (Davis & Goadrich, 2006). ROC 곡선은 서로에 대한 참 양성률 (tpr = tp / (tp + fn))과 위양성률 (fpr = fp / (fp + tn))을 보여주는 그래프입니다. 더욱이 AUROC는 긍정적인 예제가 부정적인 예제보다 더 큰 탐지 점수/값을 가질 확률로 해석될 수 있습니다 (Fawcett, 2005). 결과적으로 무작위 양성 예제 검출기는 50% AUROC에 해당하고 "완벽한"분류기는 100%에 해당합니다. 2

AUROC는 때때로 더 많은 정보를 제공하는 것으로 간주되는 AUPR (Area Under the Precision-Recall curve)과 마찬가지로 임계값 선택 문제를 회피합니다 (Manning & Schutze ¨, 1999). 이는 AUROC가 포지티브 클래스와 네거티브 클래스의 기본요금이 크게 다를 때 이상적이지 않고 AUPR이 이러한 서로 다른 포지티브 및 네거티브 기본요금을 조정하기 때문입니다. 이러한 이유로 AUPR은 두 번째 평가 지표입니다. PR 곡선은 서로에 대한 정밀도 (tp / (tp + fp))와 재현율 (tp / (tp + fn))을 표시합니다. 기준선 검출기는 정밀도와 거의 동일한 AUPR을 가지며 (Saito & Rehmsmeier, 2015) "완벽한"분류기의 AUPR은 100%입니다. 결과적으로 포지티브 클래스의 기본 속도는 AUPR에 큰 영향을 미치므로 탐지를 위해 어떤 클래스가 포지티브인지 지정해야 합니다. 이를 고려하여 성공/정상 클래스를 긍정으로 취급할 때 AUPR을 표시하고, 오류/비정상 클래스를 긍정으로 취급할 때 영역을 표시합니다. 점수에 -1을 곱하고 양수로 표시하여 오류/비정상 클래스를 양수로 취급할 수 있습니다. S가 성공적으로 분류된 값에 대한 점수이고 E가 잘못 분류된 값에 대한 점수인 경우 AUROC = P(S>E) = P(-E>-S)이므로 오류/비정상 클래스를 포지티브 클래스로 취급해도 AUROC가 변경되지 않습니다.

우리는 신경망 분류기에서 소프트맥스 라벨 분포의 최대 확률을 사용하는 간단한 기준선을 설명하는 섹션 3에서 실험을 시작합니다. 그런 다음 섹션 4에서는 입력을 재구성하도록 훈련된 추가 보조 모델 구성 요소를 사용하는 방법을 설명합니다.

3. Softmax Prediction Probability as a Baseline

다음에서는 소프트맥스 분포에서 최대/예측 클래스 확률을 검색하여 예제가 잘 못 분류되었는지 또는 out-of-distribution 인지를 감지합니다. 특히 정확하고 잘 못 분류된 테스트 세트 예제를 분리하고 각 예제에 대해 예측된 클래스의 소프트맥스 확률, 즉 최대 소프트맥스 확률을 계산합니다. 3 이 두 그룹에서 PR 및 ROC 곡선 아래 영역을 얻습니다. 이 영역은 서로 다른 임계 값에서 값/점수 (이 경우 소프트맥스의 최대 확률)로 구분하는 이진 분류기의 성능을 요약합니다. 이 설명은 올바르게 분류된 예를 표에서 "Success"또는 "Succ"으로 표시된 포지티브 클래스로 취급합니다. “Error”또는“Err”에서는 잘 못 분류된 예제를 포지티브 클래스로 취급합니다. 이를 위해 우리는 잘 못 분류된 예를 긍정적으로 분류하고 예측된 클래스의 소프트맥스 확률의 부정을 점수로 취합니다.

"In"의 경우 올바르게 분류된 테스트 세트 예제를 양성으로 처리하고 예측된 클래스에 대한 소프트맥스 확률을 점수로 사용하는 반면, "Out"의 경우 out-of-distribution 예제를 양성으로 처리하고 사용합니다. 앞서 언급한 확률의 음수입니다. 성공, 오류, 입력, 출력 분류기에 대한 AUPR은 긍정적인 예의 비율에 따라 달라지므로 무작위 감지기가 "기본"값으로 달성할 영역을 나열합니다. 또한 다음 결과에서는 잘 못 분류된 예 (Pred Prob Wrong (평균))의 평균 예측 클래스 확률을 나열하여 소프트맥스 예측 확률이 개별적으로 볼 때 오해의 소지가 있는 신뢰 프록시임을 입증합니다. “Pred. Prob (평균) '열은 이와 동일한 단점을 보여 주지만 out-of-distribution 예를 보여줍니다.

테이블 레이블은 제쳐두고 비전 데이터 세트로 실험을 시작한 다음 자연어 처리 및 자동 음성 인식 작업을 고려합니다. 다음의 모든 실험에서 AUROC는 Wilcoxon 순위 합계 테스트에 따라 통계적으로 유의미한 무작위 기준선과 다릅니다.

3.1 Computer Vision

다음 컴퓨터 비전 작업에서는 MNIST, CIFAR-10 및 CIFAR-100 (Krizhevsky, 2009)의 세 가지 데이터 세트를 사용합니다. MNIST는 60000개의 교육과 10000개의 테스트 예제로 구성된 손으로 쓴 숫자의 데이터 세트입니다. 한편, CIFAR-10은 10개의 다른 클래스에 속하는 컬러 이미지를 가지고 있으며, 50000개의 교육 및 10000개의 테스트 예제가 있습니다. CIFAR-100은 50000개의 교육과 10000개의 테스트 예제가 있는 100개의 서로 다른 클래스가 있기 때문에 더 어렵습니다.

표 1에서 올바르게 분류되고 잘 못 분류된 예는 충분히 구별되므로 신뢰할 수 있는 차별을 허용합니다. 곡선 아래 영역은 이미지 인식기 테스트 오류로 인해 저하됩니다.

다음으로 소프트맥스 분포를 사용하여 예제가 in- 또는 out-of-distribution 인지 확인하는 것을 고려해 보겠습니다. 모든 테스트 세트 예제를 in-distribution (긍정적) 예제로 사용합니다. out-of-distribution (음성) 예제의 경우 사실적인 이미지와 노이즈를 사용합니다. CIFAR-10 및 CIFAR 100의 경우 397 개의 서로 다른 장면으로 구성된 SUN (Scene UNderstanding 데이터 셋)의 사실적인 이미지를 사용합니다 (Xiao et al., 2010). MNIST의 경우 세 가지 소스의 회색조 사실적인 이미지를 사용합니다. Omniglot (Lake et al., 2015) 이미지는 MNIST에서 손으로 쓴 숫자가 아니라 손으로 쓴 문자입니다. 다음으로 notMNIST (Bulatov, 2011)는 서체 문자로 구성됩니다. 마지막으로 사실적인 이미지인 CIFAR-10bw는 흑백으로 재조정된 CIFAR-10 이미지입니다. 합성 “Gaussian” 데이터는 랜덤 노멀 노이즈이고 “Uniform” 데이터는 랜덤 균일 노이즈입니다. 필요한 경우 이미지 크기가 조정됩니다.

Table 1: 소프트맥스 예측 클래스 확률은 정확하고 잘 못 분류된 테스트 세트 예제를 구별할 수 있습니다. “Pred. Prob Wrong (mean)”은 잘못 분류된 예에 대한 평균 소프트맥스 확률로, 그 단점을 직접적인 신뢰 척도로 보여줍니다. Succ/Err Base 값은 임의 분류기에 의해 달성된 AUROC 또는 AUPR입니다. 모든 항목은 백분율입니다.

Table 2: 이미지 분류를 위해 in- and out-of-distribution 테스트 세트 데이터를 구분합니다. CIFAR10/All은 CIFAR-10/(SUN, Gaussian)과 동일합니다. 모든 값은 백분율입니다.

결과는 표 2에 나와 있습니다. 평균 예측/최대 클래스 확률 (Pred. Prob (평균))은 75%를 초과하지만 예측 확률만 신뢰로 변환되는 경우 소프트맥스 분포는 CIFAR-100에 대해 더 균일해야 합니다. 이것은 소프트맥스 확률이 신뢰의 직접적인 표현으로 간주되어서는 안된다는 것을 다시 보여줍니다. 다행히도 out-of-distribution 예는 in-distribution 예와 예측 확률이 충분히 다르므로 PR 및 ROC 곡선 아래에서 성공적으로 탐지하고 일반적으로 높은 영역을 허용합니다.

재현성을 위해 모델 아키텍처를 지정하겠습니다. MNIST 분류기는 Adam과 함께 30 epoch 동안 훈련된 3 계층, 256 뉴런 폭의 완전히 연결된 네트워크입니다 (Kingma & Ba, 2015). GELU 비선형성 (Hendrycks & Gimpel, 2016b), xΦ(x)를 사용합니다. 여기서 Φ(x)는 표준 정규 분포의 CDF입니다. 임의의 비선형성에 적합하므로 (Hendrycks & Gimpel, 2016c)에 따라 가중치를 초기화합니다. CIFAR-10 및 CIFAR-100의 경우 다시 시작 (Loshchilov & Hutter, 2016), GELU 비선형성, 표준 미러링 및 자르기 데이터 증가.

4. Abnormality Detection with Auxiliary Decoders

소프트맥스 예측 확률이 이상 감지를 가능하게 한다는 것을 확인했으므로 이제 감지에 더 유용한 다른 정보가 있음을 보여줍니다. 이를 입증하기 위해 우리는 신경망의 학습된 내부 표현을 활용합니다. 그림 1과 같이 일반 분류기를 훈련하고 입력을 재구성하는 보조 디코더를 추가하는 것으로 시작합니다. 보조 디코더는 때때로 분류 성능을 향상시키는 것으로 알려져 있습니다 (Zhang et al., 2016). 디코더와 스코어러는 in-distribution 예제에 대해 공동으로 훈련됩니다. 그 후 그림 1의 파란색 레이어가 고정됩니다. 그런 다음 깨끗하고 노이즈가있는 학습 예제에서 빨간색 레이어를 학습하고 빨간색 레이어의 시그모이드 출력은 입력이 얼마나 정상적인지 점수를 매깁니다. 결과적으로 노이즈가 있는 예제는 비정상 클래스에 있고 깨끗한 예제는 일반 클래스에 속하며 시그모이드는 입력이 속한 클래스를 출력하도록 훈련됩니다. 훈련 후에는 결과적으로 일반 분류기, 보조 디코더, 이상 모듈이라고 부르는 것이 있습니다. 비정상 모듈의 이득은 기준을 능가할 수 있는 연구 방법이 있음을 보여줍니다.

Table 11: 이상 모듈을 사용하여 향상된 감지. 모든 값은 백분율입니다.

4.2 MNIST

마지막으로, 이전 실험과 매우 유사하게 너비가 256인 3개 레이어로 MNIST 분류기를 훈련합니다. 이번에는 소프트맥스 통계에만 의존하는 대신 보조 디코더와 비정상 모듈도 사용합니다. 비정상적인 예의 경우 훈련 이미지에 가우스 노이즈를 흐리게 처리하거나 회전하거나 추가합니다. 비정상 모듈의 이득은 표 11에 나와 있으며, 소프트맥스 예측 확률과 비교하여 샘플 외 탐지 개선이 일관되게 나타납니다. 매우 다른 예에서도 비정상 모듈은 탐지를 더욱 향상시킬 수 있습니다.

5. Discussion and Future Work

비정상 모듈은 어떤 경우에는 네트워크의 표현을 이용하여 기준선을 이길 수 있음을 보여 주며 무수한 연구 방향을 제시합니다. 일부 유망한 미래의 길은 클래스 내 분산을 활용할 수 있습니다. 예에서 동일한 예측 클래스의 다른 예제까지의 거리가 비정상적으로 높으면 out-of-distribution 일 수 있습니다 (Giryes et al., 2015). 또 다른 경로는 레이어의 활성화를 요약하는 벡터를 각 레이어에 대해 하나의 벡터인 RNN에 공급하는 것입니다. RNN은 out-of-distribution 예제에 대해 활성화 패턴이 비정상이라고 결정할 수 있습니다. 다른 사람들은 탐지를 세밀하게 만들 수 있습니다. out-of-distribution 예가 알려지지 않은 것입니까, 알려지지 않은 것입니까? 다른 방법은 올바른 분류를 감지하는 것뿐만 아니라 올바른 감지의 확률을 출력하는 것입니다. 이는 오류 및 out-of-distribution 감지를 개선하기 위한 몇 가지 아이디어일 뿐입니다.

연구원이 선택한 다양한 작업 및 아키텍처에서 새로운 탐지 방법을 테스트하기를 바랍니다. 기본 데모에는 MNIST, CIFAR, IMDB 및 트윗과 같은 데이터 세트가 포함될 수 있습니다. 비전 전용 데모는 다른 아키텍처 및 데이터 세트로 잘 전송되지 않을 수 있기 때문입니다. AUPR 및 AUROC 값을 보고하는 것이 중요하며, 오류가 포지티브 클래스인 경우 항상 잘못된 분류자가 오류 감지를 위해 최대 AUPR을 얻으므로 기본 분류자의 정확도도 중요합니다. 또한 향후 연구에서는 비교를 위해 이 백서의 정확한 값을 사용할 필요가 없습니다. 기계 학습 시스템이 진화하므로 이 백서의 정확한 아키텍처 및 데이터 세트에 대한 평가를 묶을 필요가 없습니다. 대신 위와 같은 다양한 데이터 세트와 아키텍처를 선택하고 분류기의 소프트맥스 예측 확률을 기반으로 탐지 방법을 탐지기와 비교할 수 있습니다. 이 미숙한 도전에서 기준을 뛰어넘으려는 다른 사람들을 위한 기본 권장 사항입니다.

6. Conclusion

우리는 여러 아키텍처 및 수많은 데이터 세트에서 오류 및 out-of-distribution 감지에 대한 소프트맥스 예측 확률 기준선을 시연했습니다. 그런 다음 테스트 사례에서 정상 사례와 비정상 사례를 구별하는데 우수한 점수를 제공하는 이상 모듈을 제시했습니다. 비정상 모듈은 경우에 따라 기준선을 이길 수 있음을 보여 주며 이는 향후 연구의 여지가 있음을 의미합니다. 우리의 희망은 다른 연구자들이 비정상 추정을 고려하여 예측하는 아키텍처를 조사하고, 다른 연구자들은 기계 학습 시스템이 실패할 때를 아는 것이 우리를 매우 중요하게 생각하기 때문에 오류 및 out-of-distribution 입력을 감지하는 더 안정적인 방법을 추구하는 것입니다.

A Abnormality Module Example

Figure 1: 보조 디코더와 이상 모듈로 다이아몬드 이미지를 분류하는 신경망. 원은 GELU 또는 시그모이드 활성화를 갖는 뉴런입니다. 흐릿한 다이아몬드 재구성은 빼기 및 요소 별 제곱에 선행합니다. 확률 벡터는 소프트맥스 확률 벡터입니다. 파란색 레이어는 in-distribution 데이터에 대해 학습하고 빨간색 레이어는 in- and out-of-distribution 예제 모두에서 학습합니다.

0개의 댓글