먼 객체 간의 관계나 컨텍스트를 더 잘 이해할 수 있는 장점
CNN은 이미지의 공간적인 구조를 인식하는 데 강점이 있지만, 객체의 순서를 고려하지 않습니다.
CNN은 이미지를 작은 영역으로 분할하여 처리합니다.
이 작은 영역 안에서는 픽셀들 간의 관계를 잘 파악할 수 있지만, 이 작은 영역들 간의 관계나 객체들 간의 상대적인 위치와 순서를 고려하기 어렵습니다.
(layer이 깊어질수록, 그냥 뭉쳐짐)예를 들어, 한 작은 영역 안에서는 눈과 입의 관계를 파악할 수 있지만, 얼굴 내의 여러 영역 간의 관계를 파악하기는 어려울 수 있습니다.
하지만 Transformer는 순서를 고려하는 자연어 처리 분야에서 주로 사용되며, 객체 탐지에서도 객체들 간의 순서 정보를 놓치지 않고 활용할 수 있습니다.
(Vision Transformer 생각해봐라.)예를 들어, 사람과 우산이 함께 등장하면 Transformer는 이들이 서로 어떤 관계로 묶일 수 있는지 파악하여 순서 정보를 활용할 수 있습니다.
입력 데이터의 크기나 해상도에 상관없이 다양한 크기의 객체를 감지하고 인식할 수 있는
스케일 불변성을 가지고 있습니다. 이미지의 공간적인 구조를 잘 파악하는 데 능숙
한 반면, Transformer는 주로 순서에 민감한 시퀀스 데이터를 다루는 데 강점
NMS(Non Maximum Suppression)
과 같은 post-processing 과정이 반드시 필요direct set prediction
으로 간주하고 해결3, H0, W0
)에서 CNN backbone으로 feature map을 추출(C, H, W
)한 이후, 기존 Transformer와 positional encoding에서 차이가 있습니다.
Transformer는 입력 embedding의 순서와 상관 없이 동일한 값을 출력하는 permutation invariant한 성질을 가졌기 때문에 positional encoding을 더해줍니다.
DETR은 x, y axis가 있는 2D 크기의 feature map을 입력받기 때문에
N*d
)는 2개로 구성N*d
)N*d
)object query feature
query positional embedding
bi-partite matching
고정된 크기의 N 개의 prediction만을 수행함으로써, 수많은 anchor를 생성하는 과정을 우회합니다.
이 때 N은 일반적으로 이미지 내 존재하는 객체의 수보다 훨씬 더 큰 수로 지정
기존의 방법들은 anchor를 기반으로 bounding box prediction을 수행하기 때문에
반면 DETR은 어떠한 initial guess가 없이 bounding box를 예측하기 때문에 예측하는 값의 범주가 상대적으로 큽니다.
논문에서는, Bounding box loss
GIOU?
장점
단점