# SOTA

[YOLO] YOLO 버전 - Yolo v1부터 Yolo v8까지 (23.03.기준)
이번 글에서는 YOLO 시리즈별 구조 및 특징에 대해 정리해보겠습니다. 23년 3월 기준 YOLO는 버전 8까지 나와있습니다. ** YOLOv1 : 2016년에 발표된 최초 버전으로, 실시간 객체 검출을 위한 딥러닝 기반의 네트워크 YOLOv2 : 2017년에 발표된 두 번째 버전으로, 성능을 개선하고 속도를 높인 것이 특징 YOLOv3 : 2018년에 발표된 세 번째 버전으로, 네트워크 구조와 학습 방법을 개선하여 객체 검출의 정확도와 속도를 모두 개선 YOLOv4 : 2020년 4월에 발표된 네 번째 버전으로, SPP와 PAN 등의 기술이 적용되어 더욱 정확한 객체 검출과 더 높은 속도를 제공 YOLOv5 : 2020년 6월에 발표된 버전으로 YOLOv4와 비교하여 객체 검출 정확도에서 10% 이상 향상되었으며,

Object-Detection COCO Benchmark SOTA!
1. Object-Detection coco Benchmark SOTA COCO dataset은 객체 검출 분야의 기준 데이터셋이기 때문에 최첨단의 Object-Detection 논문이 발표될 때마다, COCO Benchmark 랭킹이 갱신된다. 22년 상반기까지는 DINO 가 SOTA(1위)에 자리 매김하고 있었으나, 최근(2022년 8월) 순위가 변경되었다. 순위권에 있는 모델은 Swin+HTC(hybrid task cascade) 기반이거나 DINO와 같은 end-to-end, BEIT 기반으로 실시간과는 거리가 멀다.
[논문리뷰] MDETR - Modulated Detection for End-to-End Multi-Modal Understanding
Paper: MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding 0. Abstract Multi-modal 추론 시스템은 이미지로부터 관심 있는 region을 추출하기 위해 pre-trained object detector에 의존한다. 하지만, 이 핵심적인 모듈은 보통 downstrame task(?)와 독립적으로 훈련되며, object와 attributes의 '고정된 단어'를 기반으로 학습되는 black-box로서 쓰인다. 이런 문제는 시스템이 자유 형식 텍스트로 표현된 visual concept의 긴 꼬리를 포착하는 것을 어렵게 만든다. 본 논문에서는 MD

[관련연구]State-of-the-Art model in VQA
※ 본 글에서는 VQA or 'text to bounding box' 관련 모델들의 연구 및 코드를 간단히 정리했으며, 2020~2021년의 일부 연구의 경우 추가로 성능도 비교하였습니다. Papers with code 1. MAttNet: Modular Attention Network for Referring Expression Comprehension(2018) Paper : MAttNet: Modular Attention Network for Referring Expression Comprehension(2018, Cited by 265) Code : github.com Demo :