[paper] SeqCo-DETR: Sequence Consistency Training for Self-Supervised Object Detection with Transformers

김현수·2025년 2월 2일

2023

Abstract

기존 연구는 convolution 기반 아키텍쳐를 self-supervised object detection 방법을 활용했지만 이 논문은 transformer의 순차적 특성을 고려한 self-supervised learning이 필요하다고 판단해 SeqCo-DETR을 제안했다.
이는 transformer의 output sequence 간 불일치를 최소화하는 방식을 사용한다. 즉, 서로 다른 view를 input으로 사용할 때 sequence의 일관성을 유지하도록 설계했다.

Introduction

transformer 기반 architecture는 입력은 일련의 sequence로 변환하고 최종적으로도 sequence로 출력한다. 또한 attention 메커니즘을 활용해 전체적인 정보를 처리한다.
기존 단점
대부분의 self-supervised learning method는 image classification task를 기반으로 설계가 되어있다. 이는 이미지의 전체 정보를 활용하므로 object detection처럼 개별 object 수준의 정보가 필요한 작업에는 적용하기가 힘들다.
SeqCo-DETR은 서로 다른 image view에서 sequence의 일관성을 유지하는 방식으로 학습을 진행한다.