[Paper Review] Deep Anomaly Detection with Outlier Exposure

gnoeyheat·2021년 5월 4일
0
post-thumbnail

Abstract

기계 학습 시스템을 배포할 때 비정상적인 입력을 감지하는 것이 중요합니다. 딥러닝에서 더 크고 복잡한 입력을 사용하면 비정상적 사례와 in-distribution 사례를 구별하기가 어려워집니다. 동시에 다양한 이미지 및 텍스트 데이터를 방대한 양으로 사용할 수 있습니다. 이러한 데이터를 활용하여 이상 값의 보조 데이터 세트에 대해 이상 값 탐지기를 훈련함으로써 심층 이상 값 탐지를 개선할 것을 제안합니다. 이를 Outlier Exposure (OE)라고 합니다. 이를 통해 이상 탐지기가 보이지 않는 이상을 일반화하고 탐지할 수 있습니다. 자연어 처리 및 소규모 및 대규모 비전 작업에 대한 광범위한 실험에서 이상치 노출이 탐지 성능을 크게 향상시킨다는 것을 발견했습니다. 또한 CIFAR-10에서 훈련된 최첨단 생성 모델이 CIFAR-10 이미지보다 SVHN 이미지에 더 높은 가능성을 할당할 수 있습니다. 우리는 OE를 사용하여 이 문제를 완화합니다.

1. Introduction

배포 중인 머신러닝 시스템은 종종 모델의 학습 데이터와 다른 데이터를 만납니다. 이것은 새로운 천문 현상 발견, 알려지지 않은 질병 발견 또는 센서 고장 감지에서 발생할 수 있습니다. 이러한 상황에서 이상 징후를 감지할 수 있는 모델 (Liu et al., 2018; Emmott et al., 2013)은 사람의 개입에 대한 비정상적인 예를 올바르게 표시하거나 보다 보수적인 대체 정책을 신중하게 진행할 수 있습니다.

많은 머신러닝 시스템 뒤에는 딥러닝 모델 (Krizhevsky et al., 2012)이 있으며, 테스트 시간에 표시되는 데이터가 훈련 데이터와 유사하다면 다양한 애플리케이션에서 고성능을 제공할 수 있습니다. 그러나 분포 불일치가 있는 경우 심층 신경망 분류기는 비정상 테스트 예에 대해 높은 신뢰도 예측을 제공하는 경향이 있습니다 (Nguyen et al., 2015). 이는 보정된 신뢰 추정치 (Guo et al., 2017)로 예측 확률의 사용을 무효화하고 비정상적인 예를 탐지하는데 두 배로 중요합니다.

이전의 여러 연구에서는 심층 신경망 분류기에 입력에 이상 점수를 할당하는 수단을 제공하여 이러한 문제를 해결하려고 합니다. 이러한 점수는 OOD (Out-of-Distribution) 예를 감지하는 데 사용할 수 있습니다 (Hendrycks & Gimpel, 2017; Lee et al., 2018; Liu et al., 2018). 이러한 접근 방식은 이미지, 텍스트 및 음성과 같은 복잡한 입력 공간에서 놀랍도록 잘 작동하는 것으로 입증되었습니다. 또한 전체 데이터 분포를 모델링 할 필요가 없지만 대신 모델링 되지 않은 현상을 감지하기 위해 휴리스틱을 사용할 수 있습니다. 이러한 방법 중 일부는 in-distribution 데이터에서만 표현을 사용하여 모델링 되지 않은 현상을 감지합니다.

이 백서에서는 입력이 모델링 되지 않았는지에 대한 단서를 학습하여 모델링 되지 않은 데이터를 감지하도록 모델을 훈련시키는 보완 방법을 조사합니다. 전체 데이터 분포를 모델링 하는 것은 어렵지만, 모델을 OOD 예제에 노출하여 out-of-distribution 입력을 감지하는 효과적인 휴리스틱을 학습할 수 있으므로 inliers에 대한 보다 보수적인 개념을 학습하고 새로운 형태의 이상 징후를 감지할 수 있습니다. 이를 위해 우리는 Outlier Exposure (OE)라고 하는 방법으로 다양하고 현실적인 데이터 세트를 활용할 것을 제안합니다. OE는 OOD 탐지를 위한 기존 방법을 지속적으로 개선할 수 있는 간단하고 효과적인 방법을 제공합니다.

수많은 실험을 통해 이상치 노출의 광범위한 적용 가능성을 광범위하게 평가합니다. 다중 클래스 신경망의 경우 컴퓨터 비전 및 자연어 처리 작업에 대한 철저한 결과를 제공하여 이상치 노출이 이상 값 탐지기가 대규모 이미지에서도 보이지 않는 이상 값 분포를 일반화하고 잘 수행할 수 있음을 보여줍니다. 우리는 또한 Outlier Exposure가 out-of-distribution 감지에 대한 기존의 여러 접근 방식에 비해 이득을 제공함을 보여줍니다. 우리의 결과는 또한 특이치 분포의 다양한 소스로 다양한 모델을 훈련할 수 있으므로 이상치 노출의 유연성을 보여줍니다. 또한 Outlier Exposure가 OOD 검출에 훨씬 더 유용한 OOD 샘플의 밀도 추정치를 만들 수 있음을 확인합니다. 마지막으로, 우리는 데이터의 일부가 OOD인 현실적인 설정에서 이상치 노출이 신경망 분류기의 보정을 개선한다는 것을 보여줍니다. 우리 코드는 https://github.com/hendrycks/outlier-exposure 에서 공개적으로 제공됩니다.

Out-of-Distribution Detection with Deep Networks.

Hendrycks & Gimpel (2017)은 사전 훈련된 심층 분류기가 in-distribution 예시보다 변칙 예시에서 최대 소프트 맥스 확률이 낮기 때문에 분류기가 지속적으로 유용한 out-of-distribution 감지기로 편리하게 두 배가 될 수 있음을 보여줍니다. 이 작업을 기반으로 DeVries & Taylor (2018)는 사전 훈련된 분류기에 보조 분기를 연결하고 이 분기에서 새로운 OOD 점수를 도출합니다. Liang et al. (2018)은 소프트 맥스 분포를 사용하는 OOD 검출기의 성능을 향상시킬 수 있는 방법을 제시합니다. 특히, 그들은 적대적 섭동으로 입력 데이터를 사전 처리하여 변칙과 in-distribution 예제 사이에서 최대 소프트 맥스 확률을 더 차별적으로 만듭니다 (Goodfellow et al., 2015). 우리의 작업과는 달리 이들의 매개 변수는 각 이상 원인에 맞게 조정됩니다.

Lee et al. (2018) GAN과 동시에 분류기를 훈련하고 (Radford et al., 2016; Goodfellow et al., 2014), 분류기는 GAN 샘플에 대해 낮은 신뢰도를 갖도록 훈련되었습니다. 각 테스트 분포의 이상 항목에 대해 작업의 부록 B에 설명된 대로 out-of-distribution의 샘플을 사용하여 분류기와 GAN을 조정합니다. Liang et al. (2018); Lee et al. (2018),이 작업에서는 특정 유형의 이상 테스트 분포에 맞게 매개 변수를 조정하지 않고 방법을 학습하므로 결과가 결과와 직접 비교할 수 없습니다. 다른 많은 작품 (de Vries et al., 2016; Subramanya et al., 2017; Malinin & Gales, 2018; Bevandic et al., 2018)도 모델이 변칙적 사례에 대해 낮은 신뢰도를 갖도록 권장합니다. 최근 Liu et al. (2018)은 적절하게 강력한 이상 탐지기를 사용할 수 있다는 가정하에 out-of-distribution 사례를 탐지하기 위한 이론적 보증을 제공합니다.

Utilizing Auxiliary Datasets.

이상치 노출은 네트워크에 이상 감지를 위한 더 나은 표현을 가르치기 위해 테스트 시간 데이터와 완전히 분리된 보조 데이터 세트를 사용합니다. Goodfellow et al. (2015) 견고성을 높이기 위해 적대적 사례를 훈련합니다. Salakhutdinov et al. (2011) 더 강력한 기능을 위해 웹 이미지 데이터베이스에서 감독되지 않은 심층 모델을 사전 학습합니다. Radford et al. (2017) 고품질 감정 표현을 얻기 위해 한 달 동안 Amazon 리뷰 코퍼스에서 감독되지 않는 네트워크를 훈련시킵니다. Zeiler & Fergus (2014)는 대규모 ImageNet 데이터베이스 (Russakovsky et al., 2015)에서 네트워크를 사전 훈련하면 많은 미세 조정 응용 프로그램에 유용한 일반적인 표현을 네트워크에 부여한다는 사실을 발견했습니다. Chen & Gupta (2015); Mahajan et al. (2018)은 거의 무제한의 검색 엔진 및 사진 공유 웹 사이트에서 스크랩한 이미지에서 학습 한 표현이 물체 감지 성능을 향상시킨다는 것을 보여줍니다.

3. Outlier Exposure

4. Experiments

광범위한 데이터 세트에서 OE 유무에 관계없이 OOD 검출기를 평가합니다. 각 평가는 초기 모델을 학습하는데 사용되는 in-distribution 데이터 세트 DinD_{in}, 비정상 사례 데이터 세트 DoutOED^{OE}_{out} 및 OE를 적용할 기준선 검출기로 구성됩니다. 4.2 절에서 데이터 세트를 설명합니다. OOD 검출기 및 LOEL_{OE} 손실은 사례별로 설명됩니다.

첫 번째 실험에서는 OE가 탐지기가 새로운 텍스트 및 이미지 이상을 일반화하는데 도움이 될 수 있음을 보여줍니다. 이 모든 작업은 이전 작업과 달리 학습 또는 조정 중에 테스트 배포에 대한 액세스를 가정하지 않고 수행됩니다. 신뢰 분기 실험에서 OE가 유연하고 이진 이상 탐지기를 보완함을 보여줍니다. 그런 다음 합성 이상 값을 사용하는 것이 실제 및 다양한 데이터를 사용하는 것만큼 효과적이지 않음을 보여줍니다. 이전에는 합성 데이터나 엄선된 close-to-distribution 데이터가 필요하다고 가정했지만 실제적이고 다양한 데이터로 충분합니다. 밀도 추정 실험으로 결론을 내립니다. 이 실험에서 최첨단 밀도 추정기가 예기치 않게 in-distribution 샘플보다 out-of-distribution 샘플에 더 높은 밀도를 할당한다는 사실을 발견하고 Outlier Exposure을 통해 이 놀라운 동작을 개선했습니다.

4.1 Evaluating Out-of-Distribution Detection Methods

우리는 OOD 포인트를 감지하는 능력에 대해 out-of-distribution 감지 방법을 평가합니다. 이를 위해 OOD 예제를 포지티브 클래스로 취급하고 세 가지 메트릭을 평가합니다. 수신기 작동 특성 곡선 아래 영역 (AUROC), 정밀도-재현율 곡선 아래 영역 (AUPR) 및 N%의 위양성 비율 참 양성률 (FPRN). AUROC 및 AUPR은 여러 임계 값에 걸쳐 탐지 방법의 성능을 요약하는 전체적인 메트릭입니다. AUROC는 비정상적인 예제가 in-distribution 예제보다 더 높은 OOD 점수를 받을 확률로 생각할 수 있습니다 (Davis & Goadrich, 2006). 따라서 AUROC가 높을수록 더 좋으며 정보가 없는 검출기는 AUROC가 50%입니다. AUPR은 변칙의 기본 비율을 고려하므로 변칙 사례가 드물게 발생하는 경우 (Manning & Schutze ¨, 1999) 유용합니다. 이러한 메트릭을 사용하여 평가하는 동안 모든 실험에서 DouttestD^{test}_{out}DintestD^{test}_{in} 테스트 예제의 기본 비율은 1:5입니다.

앞의 두 메트릭은 다양한 임계 값에 대한 탐지 성능을 나타내는 반면 FPRN 메트릭은 하나의 엄격한 임계 값에서의 성능을 나타냅니다. 엄격한 임계 값에서 성능을 관찰하면 강력한 감지기를 명확하게 비교할 수 있습니다. FPRN 지표 (Liu et al., 2018; Kumar et al., 2016; Balntas et al., 2016)는 비정상 사례의 N%(양성)일 때 in-distribution 사례(음성)가 잘못된 경보를 발생시킬 확률입니다. 감지되므로 FPRN이 낮을수록 좋습니다. 오경보가 거의없는 거의 모든 이상을 포착하는 것은 실질적인 가치가 높습니다.

4.2 Datasets

4.2.1 In-Distribution Datasets

SVHN.
SVHN 데이터 세트 (Netzer et al., 2011)에는 집 번호의 32×32 컬러 이미지가 포함되어 있습니다. 숫자 0-9로 구성된 10개의 클래스가 있습니다. 훈련 세트에는 604,388개의 이미지가 있고 테스트 세트에는 26,032개의 이미지가 있습니다. 전처리를 위해 픽셀 크기를 [0,1] 간격으로 조정합니다.

CIFAR.
두 개의 CIFAR (Krizhevsky & Hinton, 2009) 데이터 세트에는 32×32 자연색 이미지가 포함되어 있습니다. CIFAR-10에는 10개의 클래스가 있는 반면 CIFAR-100에는 100개의 클래스가 있습니다. CIFAR-10과 CIFAR 100 클래스는 분리되어 있지만 유사성이 있습니다. 예를 들어 CIFAR-10에는 "자동차"와 "트럭"이 있지만 CIFAR-100의 "픽업트럭" 클래스는 없습니다. 둘 다 50,000 개의 훈련 이미지와 10,000 개의 테스트 이미지를 가지고 있습니다. 이 이미지와 나머지 이미지 데이터 세트의 경우 각 이미지는 채널별로 표준화됩니다.

Tiny ImageNet.
Tiny ImageNet 데이터 세트 (Johnson et al.)는 ImageNet (Russakovsky et al., 2015) 데이터 세트의 200 클래스 하위 집합으로 이미지 크기가 조정되고 64×64 해상도로 잘립니다. 데이터 세트의 이미지는 다운 샘플링된 ImageNet (Chrabaszcz et al., 2017)과 달리 잘린 이미지에 대상이 포함되도록 경계 상자 정보를 사용하여 잘렸습니다. 훈련 세트에는 100,000개의 이미지가 있고 테스트 세트에는 10,000개의 이미지가 있습니다.

Places365.
Places365 교육 데이터 세트 (Zhou et al., 2017)는 1,803,460개의 대규모 장면 사진으로 구성됩니다. 각 사진은 365 클래스 중 하나에 속합니다.

20 Newsgroups.
20 Newsgroups는 20개의 클래스와 클래스 간에 균등하게 분할된 약 20,000개의 예제가 있는 뉴스 그룹 문서의 텍스트 분류 데이터 세트입니다. 표준 60/40 train/test 분할을 사용합니다.

TREC.
TREC는 50개의 세분화된 수업과 5,952개의 개별 질문이 있는 질문 분류 데이터 세트입니다. 테스트 세트에 대해 500개의 예제를 예약하고 나머지는 훈련에 사용합니다.

SST.
Stanford Sentiment Treebank 데이터 세트 (Socher et al., 2013)는 긍정적 또는 부정적 감정을 표현하는 영화 리뷰로 구성됩니다. SST는 교육에 대해 8,544개의 리뷰와 테스트에 대해 2,210개의 리뷰를 가지고 있습니다.

4.2.2 Outlier Exposure Datasets

80 Million Tiny Images.

8천만 개의 작은 이미지 (Torralba et al., 2008)는 웹에서 스크랩 한 32x32 자연 이미지의 대규모 다양한 데이터 세트입니다. 이 데이터 세트를 SVHN, CIFAR-10 및 CIFAR-100을 DinD_{in}으로 사용한 실험을 위해 DoutOED^{OE}_{out}으로 사용합니다. CIFAR 데이터 세트에 나타나는 8천만 개의 작은 이미지의 모든 예를 제거하여 DoutOED^{OE}_{out}DouttestD^{test}_{out}이 서로 분리되도록 합니다. 섹션 5에서는 성공적인 OE를 위해 이 데이터 세트의 극히 일부만 필요하다는 점에 주목합니다.

ImageNet-22K.

8천만 개의 작은 이미지의 이미지는 해상도가 너무 낮기 때문에 Tiny ImageNet 및 Places365에 대한 DoutOED^{OE}_{out}으로 약 22,000개 클래스의 이미지가 포함된 ImageNet 데이터 세트를 사용합니다. DoutOED^{OE}_{out}DouttestD^{test}_{out}를 분리하기 위해 ImageNet-1K의 이미지를 제거합니다.

WikiText-2.

WikiText-2는 일반적으로 언어 모델링에 사용되는 Wikipedia 기사의 모음입니다. Penn Treebank를 DinD_{in}으로 사용하여 언어 모델링 실험을 위해 WikiText-2를 DoutOED^{OE}_{out}로 사용합니다. 20개의 뉴스 그룹, TREC 및 SST에 대한 분류 작업의 경우 WikiText-2의 각 문장을 개별 예제로 취급하고 간단한 필터를 사용하여 품질이 낮은 문장을 제거합니다.

4.3 Multiclass Classification

다음에서는 Outler Exposure을 사용하여 다중 클래스 분류를 원래 작업으로 사용하여 기존 OOD 탐지 기술의 성능을 향상시킵니다.

Maximum softmax Probability (MSP).

Confidence Branch.

Synthetic Outliers.

4.4 Density Estimation

PixelCNN++.

Language Modeling.

5. Discussion

Extensions to Multilabel Classifiers and the Reject Option.

이상치 노출은 위에서 고려한 것보다 더 많은 분류 체계에서 작동할 수 있습니다. 예를 들어, CIFAR-10에서 훈련된 다중 라벨 분류기는 최대 예측 확률을 OOD 점수로 사용할 때 88.8% 평균 AUROC를 얻습니다. OOD 샘플에 대한 분류기의 출력 확률을 낮추기 위해 OE로 훈련하면 평균 AUROC가 97.1%로 증가합니다. 이것은 OE로 조정된 멀티 클래스 모델의 AUROC보다 약간 적습니다. 대안적인 OOD 검출 공식은 분류기에 "거부 등급"을 부여하는 것입니다 (Bartlett & Wegkamp, 2008). Outlier Exposure는 또한 이 설정에서 성능을 향상시킬 수 있을 만큼 유연하지만 OE를 사용하더라도 거부 옵션 또는 다중 레이블 출력이 있는 분류기는 다중 클래스 출력이 있는 OOD 검출기만큼 경쟁력이 없다는 것을 발견했습니다.

Flexibility in Choosing DoutOED^{OE}_{out}

실험 초기에 우리는 DoutOED^{OE}_{out}의 선택이 보이지 않는 DouttestD^{test}_{out} 분포에 대한 일반화에 중요하다는 것을 발견했습니다. 예를 들어, DoutOED^{OE}_{out}을 생성하기 위해 DinD_{in}의 샘플에 가우스 잡음을 추가하는 것은 복잡한 DinD_{in}에 대해 보이지 않는 이상 분포로 일반화하도록 네트워크를 가르치지 않습니다. 마찬가지로, 4.3 절에서 합성 이상이 DoutOED^{OE}_{out}에 대한 실제 데이터만큼 작동하지 않는다는 것을 발견했습니다. 대조적으로, 우리의 실험은 섹션 4.2.2에 설명된 현실적인 이상치의 대규모 데이터 세트가 보이지 않는 DouttestD^{test}_{out} 분포로 일반화된다는 것을 보여줍니다.

크기와 사실성 외에도 DoutOED^{OE}_{out}의 다양성이 중요한 요소임을 발견했습니다. 구체적으로 CIFAR-10을 DoutOED^{OE}_{out}으로 사용하는 CIFAR-100 분류기는 기준선보다 거의 개선되지 않습니다. 10개의 CIFAR-100 특이치 클래스에 노출된 CIFAR-10 분류기는 평균 AUPR 78.5 %에 해당합니다. 이러한 클래스 30개에 노출되면 분류자의 평균 AUPR은 85.1%가 됩니다. 다음으로, 50개의 클래스는 85.3%에 해당하며, 추가 CIFAR-100 클래스는 성능을 거의 향상시키지 않습니다. 이는 데이터 세트의 다양성이 크기뿐만 아니라 중요함을 시사합니다. 실제로 이 백서의 실험은 모델을 간단히 미세 조정했기 때문에 8천만 개의 작은 이미지 데이터 세트에 있는 이미지의 약 1%를 자주 사용했습니다. 또한 이 데이터 세트에서 50,000개의 예만 사용하면 탐지 성능이 거의 저하되지 않는 것으로 나타났습니다. 또한 통계가 크게 다른 DoutOED^{OE}_{out} 데이터 세트는 유사하게 수행할 수 있습니다. 예를 들어, SST 실험에서 DoutOED^{OE}_{out}에 대해 WikiText-2 대신 Project Gutenberg 데이터 세트를 사용하면 평균 AUROC가 89.3%가 아닌 90.1%가 됩니다.

Closeness of DouttestD^{test}_{out}, DoutOED^{OE}_{out}, and DintestD^{test}_{in}.

우리의 실험은 관련된 데이터 세트의 근접성에 대한 몇 가지 흥미로운 효과를 보여줍니다. 첫째, DouttestD^{test}_{out}에서 성능을 향상시키기 위해 OE를 사용한 교육에 대해 DouttestD^{test}_{out}DoutOED^{OE}_{out}이 가까울 필요가 없음을 발견했습니다. 부록 A에서 SVHN 용 OOD 감지기는 (1) DoutOED^{OE}_{out} 샘플이 숫자가 아닌 자연 장면의 이미지이고 (2) DouttestD^{test}_{out}에 이모티콘과 같은 부자연스러운 예가 포함되어 있어도 Outlier Exposure로 성능이 향상되는 것을 확인했습니다. 우리는 MNIST를 사용한 예비 실험에서 동일한 것을 관찰했습니다. 8천만 개의 작은 이미지를 DouttestD^{test}_{out}으로 사용하여 OE는 AUPR을 94.2%에서 97.0%로 높였습니다.

둘째, DintestD^{test}_{in}에 대한 DoutOED^{OE}_{out}의 근접성이 OE의 성공에 중요한 요소가 될 수 있음을 발견했습니다. NLP 실험에서 DoutOED^{OE}_{out}DinD_{in}에 더 가깝게 전처리하면 OOD 탐지 성능이 크게 향상됩니다. 전처리 없이 네트워크는 입력이 in- 인지 또는 out-of-distribution 인지를 나타내는 학습하기 쉬운 단서를 발견할 수 있으므로 OE 교육 목표를 의도하지 않은 방식으로 최적화할 수 있습니다. 그 결과 감지기가 약해집니다. 별도의 실험에서는 어려운 이상치가 이상치 노출에서 더 많은 가중치를 갖도록 온라인 하드 예제 마이닝을 사용합니다. 이렇게 하면 가장 어려운 이상 항목의 성능이 향상되지만 노이즈와 같은 그럴듯한 로컬 통계가 없는 이상 항목은 이전보다 약간 덜 효과적으로 감지됩니다. 따라서 어렵거나 close-to-distribution 예제는 다양한 형태의 이상을 탐지하기 위한 모든 귀중한 휴리스틱을 탐지기에 반드시 가르치는 것은 아닙니다. OE의 실제 응용 프로그램은 Sun 등의 방법을 사용할 수 있습니다. (2018) 스크랩 된 DoutOED^{OE} _{out} 보조 데이터 세트를 DintestD^{test}_{in}에 적절하게 가깝게 수정합니다.

OE Improves Calibration.

6. Conclusion

이 논문에서 우리는 다양한 설정에서 많은 현재 OOD 감지기를 향상시키는 간단한 기술인 Outlier Exposure를 제안했습니다. out-of-distribution 샘플을 사용하여 네트워크 휴리스틱이 새로운, 모델링 되지 않은, out-of-distribution 예제를 감지하도록 가르칩니다. 우리는 이 방법이 대규모 이미지 작업에도 시각 및 자연어 설정에 광범위하게 적용된다는 것을 보여주었습니다. OE는 모델 보정 및 여러 이전의 이상 탐지 기술을 개선할 수 있습니다. 또한 OE는 out-of-distribution 샘플에 더 그럴듯한 밀도를 할당하기 위해 밀도 추정 모델을 교육할 수 있습니다. 마지막으로, Outlier Exposure는 계산적으로 저렴하고 기존 시스템에 낮은 오버 헤드로 적용할 수 있습니다. 요약하면, Outlier Exposure는 out-of-Distribution 감지 시스템을 향상시키기 위한 효과적이고 보완적인 접근 방식입니다.

0개의 댓글