Dynamic Head: Unifying Object Detection Heads with Attentions

emforce·2022년 11월 15일
0

Abstract

물체 탐지에서 지역화와 분류를 결합하는 복잡한 특성으로 인해 방법이 번창했다. 이전 연구들은 다양한 객체 감지 헤드에서 성능을 향상시키려고 했지만 통합된 뷰를 제시하지 못했다. 본 논문에서는 객체 감지 헤드를 주의 깊게 통합하기 위한 새로운 동적 헤드 프레임워크를 제시한다. 제안된 접근 방식은 스케일 인식을 위한 기능 수준 간, 공간 인식을 위한 공간 위치 간, 작업 인식을 위한 출력 채널 내에서 여러 자기 주의 메커니즘을 일관되게 결합하여 계산 오버헤드 없이 객체 감지 헤드의 표현 능력을 크게 향상시킨다.

1. Introduction

객체 감지는 컴퓨터 비전 애플리케이션에서 "어떤 객체가 어디에 위치하는가"라는 질문에 답하는 것이다. 딥 러닝 시대에, 거의 모든 현대적인 객체 감지기는 기능 추출을 위한 백본localization 및 분류 작업을 위한 헤드라는 동일한 패러다임을 공유한다. 물체 감지 헤드의 성능을 향상시키는 방법은 기존 물체 감지 작업에서 중요한 문제가 되었다. 우수한 물체 감지 헤드를 개발하는 데 있어서의 과제는 세 가지 범주로 요약할 수 있다.첫째로, 머리는 스케일 인식이 되어야 한다. 왜냐하면 매우 뚜렷한 스케일을 가진 여러 물체가 종종 이미지에 공존하기 때문이다. 두 번째로, 물체는 일반적으로 서로 다른 관점에서 매우 다른 모양, 회전 및 위치로 나타나기 때문에 머리는 공간 인식을 해야 한다. 셋째로, 객체는 완전히 다른 목적과 제약 조건을 소유하는 다양한 표현(예: B-box [11], 중심 [25] 및 코너 포인트 [30])을 가질 수 있기 때문에, 헤드는 작업 인식이 필요하다. 우리는 최근의 연구가 앞에서 언급한 문제 중 하나를 다양한 방법으로 해결하는 데만 초점을 맞추고 있다는 것을 발견한다. 이 모든 문제를 동시에 해결할 수 있는 통합 헤드를 어떻게 개발할 것인지는 미해결 문제로 남아 있다. 본 논문에서는 스케일 인식, 공간 인식 및 작업 인식을 모두 통합하기 위해 동적 헤드라는 새로운 탐지 헤드를 제안한다. 치수 수준 × 공간 × 채널을 가진 3차원 텐서로서 백본의 출력(즉, 검출 헤드에 대한 입력)을 고려하면, 그러한 통합 헤드가 주의 학습 문제로 간주될 수 있음을 발견한다. 직관적인 해결책은 이 텐서 위에 완전한 자기 주의 메커니즘을 구축하는 것이다. 그러나 최적화 문제는 해결하기가 너무 어려우며 계산 비용은 감당할 수 없다. 대신, 우리는 주의 메커니즘을 각 특정 기능 차원, 즉 수준별, 공간별 및 채널별로 배치할 수 있다. 스케일 인식 주의 모듈은 레벨 차원에서만 전개됩니다. 규모에 따라 개별 객체에 대한 적절한 수준에서 기능을 향상시키기 위해 다양한 의미 수준의 상대적 중요성을 학습한다. 공간 인식 주의 모듈은 공간 차원(즉, 높이 x 폭)에 배치된다. 공간 위치에서 일관성 있게 차별적 표현을 학습한다. 작업 인식 주의 모듈은 채널에 배포됩니다. 객체와 다른 컨볼루션 커널 응답을 기반으로 서로 다른 작업(예: 분류, 상자 회귀 및 중앙/키포인트 학습)을 개별적으로 선호하도록 서로 다른 기능 채널을 지시한다. 이러한 방식으로 탐지 헤드에 대한 통합 주의 메커니즘을 명시적으로 구현한다. 이러한 주의 메커니즘은 특징 텐서의 다른 차원에 별도로 적용되지만, 성능은 서로 보완할 수 있다. MS-COCO 벤치마크에 대한 광범위한 실험은 우리 접근 방식의 효과를 입증한다. 1.2%~3.2% AP 이득으로 모든 종류의 객체 감지 모델을 개선하는 데 활용할 수 있는 더 나은 표현을 학습할 수 있는 큰 잠재력을 제공한다. 표준 ResNeXt101-DCN 백본을 사용하여 제안된 방법은 COCO에서 54.0% AP의 새로운 상태를 달성한다. 또한, EffectientDet[24] 및 SpineNet[8]과 비교했을 때, 동적 헤드는 1/20의 훈련 시간을 사용하지만 성능은 더 우수하다.

2. Related Work

Scale-awareness.

많은 연구는 자연 이미지에 종종 매우 다른 스케일을 가진 물체가 공존하기 때문에 물체 감지에서 스케일 인식의 중요성에 공감했다. 초기 연구는 다중 스케일 훈련을 위해 이미지 피라미드 방법[6, 22, 23]을 활용하는 것의 중요성을 입증했다. 이미지 피라미드 대신, 기능 피라미드[14]는 다운샘플링된 컨볼루션 기능의 피라미드를 연결하여 효율성을 향상시키기 위해 제안되었으며 현대 물체 감지기의 표준 구성 요소가 되었다. 그러나 다른 수준의 기능은 일반적으로 네트워크의 다른 깊이에서 추출되므로 눈에 띄는 의미론적 격차가 발생한다. 이러한 불일치를 해결하기 위해 [17]은 특징 피라미드에서 상향식 경로 확대를 통해 하위 계층의 특징을 향상시킬 것을 제안했다. 이후 [18]은 균형 잡힌 샘플링과 균형 잡힌 특징 피라미드를 도입하여 이를 개선했다. 최근 [28]은 수정된 3-D 컨볼루션을 기반으로 스케일과 공간적 특징을 동시에 추출하기 위한 피라미드 컨볼루션을 제안했다. 이 작업에서, 우리는 감지 헤드에서 스케일 인식 주의를 제시하여 다양한 기능 수준의 중요성을 입력에 적응시킨다.

Spatial-awareness.

이전 연구는 더 나은 의미 학습을 위해 객체 감지의 공간 인식을 개선하려고 노력했다. 컨볼루션 신경망은 이미지에 존재하는 공간 변환을 학습하는 데 제한이 있는 것으로 알려졌다[36]. 일부 작업은 모델 기능(크기)을 늘리거나 값비싼 데이터 증강을 포함하여 [12, 29] 이 문제를 완화하여 추론 및 훈련에서 계산 비용이 매우 높다. 나중에 공간 변환 학습을 개선하기 위해 새로운 컨볼루션 연산자가 제안되었다. [31] 기하급수적으로 확장된 수용 영역에서 맥락 정보를 집계하기 위해 확장된 컨볼루션을 사용할 것을 제안했다. [7] 추가적인 자가 감지 오프셋을 사용하여 공간 위치를 샘플링하기 위한 변형 가능한 컨볼루션을 제안했다. [33] 학습된 특징 진폭을 도입하여 오프셋을 재구성하고 그 능력을 더욱 향상시켰다. 본 연구에서는 탐지 헤드에서 공간 인식 주의를 제시하는데, 이는 각 공간 위치에 주의를 적용할 뿐만 아니라 보다 차별적인 표현을 학습하기 위해 여러 기능 수준을 적응적으로 통합한다.

Task-awareness.

객체 감지는 먼저 객체 제안을 생성한 다음 제안을 다른 클래스와 배경으로 분류하는 2단계 패러다임[35, 6]에서 비롯되었다. [21] 두 단계를 모두 단일 컨볼루션 네트워크로 공식화하기 위해 지역 제안 네트워크(RPN) 를 도입하여 현대적인 2단계 프레임워크를 공식화했다. 후에, 1단계 물체 감지기[20]는 높은 효율 때문에 인기를 얻었다. [15] 이전의 1단계 검출기 속도를 유지하면서 2단계 검출기의 정확도를 능가하기 위해 작업별 분기를 도입하여 아키텍처를 더욱 개선했다. 최근에는 물체의 다양한 표현이 잠재적으로 성능을 향상시킬 수 있다는 연구 결과가 더 많이 나왔다. [11] 먼저 경계 상자와 객체의 분할 마스크를 결합하면 성능을 더욱 향상시킬 수 있음을 입증했다. [25] 중심 표현을 사용하여 개체별 예측 방식으로 개체 탐지를 해결할 것을 제안했다. [32] 개체의 통계적 특성에 따라 양의 샘플과 음의 샘플을 자동으로 선택하여 센터 기반 방법의 성능을 더욱 향상시켰다. 나중에 [30]은 학습을 용이하게 하기 위한 대표적인 핵심 포인트로 객체 감지를 공식화했다. [9] 부정확한 예측을 줄이기 위해 키 포인트 쌍이 아니라 각 객체를 삼중항으로 감지하여 성능을 더욱 향상시켰다. 가장 최근에 [19]는 포인트 기능을 향상시키기 위해 각 경계의 극한 지점에서 경계 기능을 추출할 것을 제안하고 최첨단 성능을 보관했다. 이 연구에서, 우리는 탐지 헤드에서 작업 인식 주의를 제시하는데, 이는 단일/2단계 탐지기 또는 상자/센터/키포인트 기반 탐지기에 대해 다양한 작업을 적응적으로 선호할 수 있는 채널에 주의를 배치할 수 있다.

더 중요한 것은, 위의 모든 특성이 우리의 헤드 디자인에서 통합된 주의 메커니즘에 통합된다는 것이다. 우리가 아는 한, 이것은 물체 탐지 헤드의 성공에 주의가 어떤 역할을 하는지 이해하는 데 한 걸음 내딛는 최초의 일반 탐지 헤드 프레임워크이다.

3. Approach

0개의 댓글