[paper] SeqCo-DETR: Sequence Consistency Training for Self-Supervised Object Detection with Transformers

김현수·2025년 2월 2일
0

2023

Abstract


기존 연구는 convolution 기반 아키텍쳐를 self-supervised object detection 방법을 활용했지만 이 논문은 transformer의 순차적 특성을 고려한 self-supervised learning이 필요하다고 판단해 SeqCo-DETR을 제안했다.
이는 transformer의 output sequence 간 불일치를 최소화하는 방식을 사용한다. 즉, 서로 다른 view를 input으로 사용할 때 sequence의 일관성을 유지하도록 설계했다.

Introduction

transformer 기반 architecture는 입력은 일련의 sequence로 변환하고 최종적으로도 sequence로 출력한다. 또한 attention 메커니즘을 활용해 전체적인 정보를 처리한다.
기존 단점
대부분의 self-supervised learning method는 image classification task를 기반으로 설계가 되어있다. 이는 이미지의 전체 정보를 활용하므로 object detection처럼 개별 object 수준의 정보가 필요한 작업에는 적용하기가 힘들다.
SeqCo-DETR은 서로 다른 image view에서 sequence의 일관성을 유지하는 방식으로 학습을 진행한다.

sequence의 일관성을 유지한다는게 무슨 뜻일까?

이 논문에서는 location과 label를 모두 고려한 self-supervised learning task를 수행한다.

예측된 sequence는 서로 다른 image view에서 다르게 나타날 수 있다. 이는 bipartite matching 방법을 사용해 일관된 sequence learning을 유도한다.


0개의 댓글