In-distribution <-> OOD
똑같은 분포로 만들어서 high-confidence detection을 방지하는것이 이상적
현재 OOD(out-of-distribution) 예제를 검출하는 것의 중요성에 대한 합의는 있지만, OOD 예제의 공식적인 정의와 가장 잘 검출하는 방법에 대해서는 합의가 없다.
-> background 변화와 semantic 변화에 따라 이러한 예제를 분류하고, OOD 감지의 두 가지 주요 접근 방식인 모델 보정과 밀도 추정(텍스트의 경우 언어 모델링)이 이러한 유형의 OOD 데이터에서 서로 다른 결과를 보인다는 것을 발견했다.
14쌍의 in-distribution 및 OOD 영어 자연어 이해 데이터셋에서 background 변화 설정에서는 밀도 추정 방법이 일관되게 보정 방법을 이긴 반면, semantic 변화 설정에서는 성능이 나빠진다. 또한, challenge 데이터에서 두 방법 모두 일반적으로 예제를 검출하지 못하는 것으로 나타났다.
모든 설정에서 잘 작동하는 단일 방법이 없기 때문에, 서로 다른 검출 방법을 평가할 때 OOD 예제를 명확하게 정의할 필요가 있다는 것을 보여준다.
현재 NLP 모델은 훈련 및 테스트 분포가 동일한 경우 잘 작동하지만, 실제 환경에서 훈련 데이터와 다른 out-of-distribution (OOD) 예제가 나타나는 경우 신뢰도가 떨어지거나 심지어 잘못된 예측을 할 수 있다.
따라서 OOD 입력을 식별하여 거부, 인간 피드백 요청 또는 추가 정보 수집과 같은 조치를 취하는 것이 중요하다.
-> 이 논문에서는 NLP 문제의 일반적인 분포 변화 유형에 따라 OOD 예제를 분류하고, 모델의 예측 신뢰도를 사용하는 calibration 방법과 훈련 데이터의 분포를 맞추는 density estimation 방법 두 가지 접근 방식을 비교하여, 두 가지 접근 방식이 각각 배경 및 의미적 변화를 가진 OOD 데이터에서 다르게 동작한다는 것을 밝히고 있다.