[논문리뷰]DOTA : A Large-scale Dataset for Object Detection in Aerial Images

Jajuna_99·2022년 10월 5일

CV DOTA 객체탐지 논문리뷰 데이터셋

논문리뷰

목록 보기

2/4

DOTA : A Large-scale Dataset for Object Detection in Aerial Images

큰 규모의 객체 탐지를 위한 항공 이미지 데이터셋
2019년 5월 발표

요약 : 위성 사진 객체 탐지 연구에 사용할만한, 큰 규모의 데이터셋.

서론

컴퓨터 비전에 많은 발전이 있었으나, 항공 이미지에 대한 진행도는 더뎠다. 그 이유로는 지구 표면에는 여러 규모, 방향, 모양의 객체들이 내포돼 있고, 항공 이미지 개념을 갖고 만들어진 데이터셋 갯수 자체가 부족한 점이다.

그래서 이 DOTA(Dtadaset for Object deTection in Aerial imgaes)를 소개했다.

총 다른 센서와 플랫폼에서 모은 2806개의 항공 이미지 (발표 당시), 그리고 각 이미지들은 4000x4000 정도의 픽셀들과 많은 갯수의 객체들, 그리고 그 객체들의 여러 크기, 방향, 모양들을 수집되었다. 그리고 항공 이미지 해석 전문가의 의해 15개의 객체 카테고리로 나뉘어졌다. 완전히 주석된 DOTA 이미지들은 총 188,282개의 케이스(instances)들이 있다.

그리고 항공사진의 객체 탐지를 위한 베이스라인을 만들기 위해, 최신의 객체 탐지 알고리즘들을 DOTA의 적용시켰다. 실험 결과들은 DOTA가 항공사진 비전 응용에 잘 부합(대표)한다는 것을 명시하면서 동시에 쉽지 않다는 것을 보여준다.

소개

논문 서론에서 설명했던 비전과 비전외 분야의 대해 간략히 설명, 예시 이미지들과 통계 자료로 로 DOTA의 이미지 크기와 객체들의 크기, 케이스들, 카테고리들이 어느정도인지 보여준다.

연구 동기

그 동안 사용되어왔던 항공 이미지 데이터셋들과 비교해보면서 DOTA 데이터셋의 우월성을 증명한다.

DOTA 주석

이미지를 모았던 방식, 방법과 카테고리 선별 과정, 주석(instance화) 방법등을 알려주고 마지막으로, 데이터셋 분류 비율을 알려준다. (반은 training set, 1/6은 validation set, 1/3은 test set인데 발표 당시 평가 서버를 구축 중이라 test set은 공개 하지 않았다고 한다.)

DOTA 요소들

이미지 크기, 객체들의 방향 다양성, 공간 해상도 정보, 카테고리 별 픽셀 크기의 다양성, 객체의 다양한 시각 비율, 이미지의 다양한 객체 깊이 등을 소개한다.

평가 방법

Faster R-CNN, R-FCN, YOLOv2 그리고 SSD알고리즘을 사용했다. 각 이미지들의 크기를 고려해 실험에서 사용한 crop과 stride 크기도 알려준다. 평가지표로는 horizontal bounding boxes(HBB), oriented bounding box(OBB)를 사용했다. 그리고 평가지표에 맞게 수식 정리와 과정, 베이스 라인, 결과 분석 또한 세밀히 기록했다.