[Object Detection] DETR (Detection Transformer; DETR), CenterNet

나감빛·2023년 3월 17일

DETR

'Detection Transformer'의 약자로, 객체 검출 작업에서 효과적인 성능을 보이는 딥러닝 모델입니다. 이 모델은 트랜스포머(Transformer) 아키텍처를 기반으로 하며, 이전까지는 R-CNN, Faster R-CNN, YOLO 등의 모델이 주로 사용되던 객체 검출 분야에서 새로운 방향을 제시하고 있습니다.

DETR은 객체 검출을 위한 딥러닝 모델 중에서 End-to-End 방식을 채용한 최초의 모델 중 하나입니다. 이는 객체 검출에 필요한 다양한 작업들 (ex: RoI 추출, 클래스 예측 등)을 하나의 네트워크에서 수행할 수 있게 하여, 모델을 간단하고 빠르게 만들어줍니다.

DETR의 동작 원리는 크게 두 가지로 나뉩니다. 첫째, 입력 이미지에서 객체의 위치 정보를 추출하는 Encoder 부분과 둘째, 추출된 위치 정보를 이용하여 객체를 검출하는 Decoder 부분입니다.

Encoder 부분은 특정 크기의 패치를 추출하여, 트랜스포머(Transformer) 아키텍처를 사용하여 위치 정보를 추출합니다. 이렇게 추출된 위치 정보는 Decoder 부분에서 객체 검출을 위해 사용됩니다.

Decoder 부분은 추출된 위치 정보를 입력으로 받아, 객체의 경계 상자(Bounding Box)와 클래스를 예측합니다. 이 때, 경계 상자 예측은 위치 정보를 이용하여, 객체의 중심과 크기를 예측하고 이를 기반으로 경계 상자를 예측합니다. 또한, 클래스 예측은 위치 정보와 이미지의 특징 정보를 함께 이용하여 객체의 클래스를 예측합니다. 학습과정에서는 CNN을 통해 생성된 feature들이 인코더에 들어간 후 디코더에 전달이 되면 ground truth 데이터를 통해 Box의 형태로 훈련하게 되고, 그것들이 prediction이 되는 것이다. 이 과정에서 Self-Attention을 통해 feature들의 연관성을 찾아내므로 여러개가 아닌 객체당 하나의 prediction이 나오게 된다.

DETR은 객체 검출 작업에서 SOTA(Sate of The Art) 성능을 보이며, 높은 정확도와 빠른 속도를 모두 충족시키는 모델입니다. 이는 컴퓨터 비전 분야에서 객체 검출을 필요로 하는 다양한 응용 분야에서 활용될 수 있습니다.

Object detection 분야에서 end-to-end 방식의 새로운 구조를 제안했으며, DETR은 Faster R-CNN에 견주어 부족하지 않다고 한다. 또한, DETR은 panoptic segmentation으로 확장이 쉽고, 경쟁력있는 결과를 가진다. Large object에서는 Faster R-CNN보다 좋은 성능을 보여준다. 이러한 새로운 구조의 detector는 훈련, 최적화, small object 성능 개선등에 도전하여 향후에는 DETR의 성공적으로 될거라고 기대한다고 한다.

Transfomer

Transformer는 딥러닝 모델 중 하나로, 기계 번역, 음성 인식, 이미지 분류 등 다양한 자연어 처리 및 컴퓨터 비전 분야에서 사용되는 모델입니다.

Transformer는 이전에 주로 사용되던 RNN (Recurrent Neural Network)을 대체하고자 제안된 모델로, Attention 메커니즘을 기반으로 하고 있습니다. RNN은 시퀀스 데이터를 처리하는 데 강점을 보였지만, 시간에 따라 처리해야 하는 단점 등이 있었습니다. 반면에 Transformer는 기존 RNN의 단점을 보완하여, 시간적인 정보가 필요하지 않는 경우에도 높은 성능을 보이고 있습니다.

Transformer는 입력과 출력이 여러 개의 단어로 이루어진 시퀀스 데이터를 처리할 수 있습니다. 이는 기계 번역 분야에서 매우 유용하게 사용되며, 최근에는 이미지 분류 분야에서도 활용되고 있습니다.

Transformer는 이론적으로 계산 복잡도가 높은 편이지만, 효율적인 구현 방법과 학습 기법이 개발되어, 다양한 자연어 처리 분야에서 활발히 사용되고 있습니다.

CenterNet

CenterNet은 객체 검출 분야에서 사용되는 딥러닝 모델 중 하나로, 객체 중심으로 학습하여 높은 정확도를 보입니다.

CenterNet은 객체를 검출하기 위해 입력 이미지의 모든 위치에서 객체의 중심을 예측하고, 이를 기반으로 객체의 경계 상자(Bounding Box)와 클래스를 예측합니다. 이는 Faster R-CNN 등의 기존 모델과 달리, RoI 추출 및 후보 상자 생성과 같은 복잡한 과정이 필요하지 않아 더 빠르고 정확한 객체 검출이 가능합니다. Anchor Box를 사용자가 정의하지 않아도 되는 (Anchor free) 장점이 있어서 많은 어플리케이션에 사용되는 추세입니다.

또한 CenterNet은 효율적인 네트워크 구조를 사용하여, 모델의 파라미터 수와 연산 비용을 줄이고, 모바일 기기 등의 환경에서도 높은 성능을 발휘할 수 있습니다.

CenterNet은 COCO 데이터셋에서 SOTA(Sate of The Art) 성능을 보이며, 다양한 객체 검출 분야에서 활용될 수 있습니다. 또한 CenterNet은 특정 객체 검출 분야에서 높은 성능을 보이는 등 다양한 변형 모델도 개발되고 있습니다.

참고:https://deep-learning-study.tistory.com/622

나감빛

이전 포스트

[Object Detection] DETR (Detection Transformer; DETR), CenterNet

DETR

Transfomer

CenterNet

[Object Detection] EfficientNet

0개의 댓글