2023
기존 연구는 convolution 기반 아키텍쳐를 self-supervised object detection 방법을 활용했지만 이 논문은 transformer의 순차적 특성을 고려한 self-supervised learning이 필요하다고 판단해 SeqCo-DETR
을 제안했다.
이는 transformer의 output sequence 간 불일치를 최소화하는 방식을 사용한다. 즉, 서로 다른 view를 input으로 사용할 때 sequence의 일관성을 유지하도록 설계했다.
transformer 기반 architecture는 입력은 일련의 sequence로 변환하고 최종적으로도 sequence로 출력한다. 또한 attention 메커니즘을 활용해 전체적인 정보를 처리한다.
기존 단점
대부분의 self-supervised learning method는 image classification task를 기반으로 설계가 되어있다. 이는 이미지의 전체 정보를 활용하므로 object detection처럼 개별 object 수준의 정보가 필요한 작업에는 적용하기가 힘들다.
SeqCo-DETR은 서로 다른 image view에서 sequence의 일관성을 유지하는 방식으로 학습을 진행한다.
sequence의 일관성을 유지한다는게 무슨 뜻일까?
이 논문에서는 location과 label를 모두 고려한 self-supervised learning task를 수행한다.
예측된 sequence는 서로 다른 image view에서 다르게 나타날 수 있다. 이는 bipartite matching 방법을 사용해 일관된 sequence learning을 유도한다.