Continental-Scale Building Detection from High Resolution Satellite Imagery 제3부

이준석·2022년 9월 26일
0

Instance segmentation is a well-studied task, though most literature on instance segmentation methods are concerned with detecting objects in photos.
인스턴스 분할은 잘 연구된 작업이지만 인스턴스 분할 방법에 대한 대부분의 문헌은 사진에서 물체를 감지하는 것과 관련이 있습니다.

In such settings, the best performing methods tend to be end-to-end instance segmentation models, which break down the problem into feature extraction, bounding box regression and mask prediction stages; recent examples are YOLOv4 [2] or Hybrid Task Cascades [3].
이러한 설정에서 가장 성능이 좋은 방법은 문제를 특징 추출, 경계 상자 회귀 및 마스크 예측 단계로 분해하는 종단 간 인스턴스 분할 모델인 경향이 있습니다. 최근의 예는 YOLOv4[2] 또는 Hybrid Task Cascades[3]입니다.

Satellite imagery, however, has different characteristics, which has motivated alternative approaches to instance segmentation.
그러나 위성 이미지는 인스턴스 분할에 대한 대안적 접근 방식에 동기를 부여한 다른 특성을 가지고 있습니다.

In particular, objects such as buildings can be smaller and more densely clustered, which is a challenge for methods that use bounding box regression with a non-maximum suppression (NMS) step, since in cases where instances are densely arranged, NMS can suppress true detections and reduce recall.
특히, 건물과 같은 객체는 더 작고 더 조밀하게 클러스터링될 수 있는데, 이는 인스턴스가 조밀하게 배열된 경우 NMS가 실제 탐지를 억제하고 리콜을 줄일 수 있기 때문에 NMS(Non-Maximum Suppression) 단계로 바운딩 박스 회귀를 사용하는 방법의 과제이다.


In satellite imagery, therefore, a more common approach is to first carry out semantic segmentation to classify each pixel in an image as building or non-building.
carry out 수행하다
따라서 위성 이미지에서 보다 일반적인 접근 방식은 먼저 의미론적 분할을 수행하여 이미지의 각 픽셀을 건물 또는 비건물로 분류하는 것입니다.
Post-processing is then done to extract instances, for example by thresholding and finding connected components.
그런 다음 예를 들어 임계값을 지정하고 연결된 구성 요소를 찾는 등의 방법으로 인스턴스를 추출하기 위한 사후 처리가 수행됩니다.
An example of this type of encoder-decoder approach that has been successful for building detection is TernausNetV2 [4], which uses U-Net [1] with a ResNet-based encoder, and three output classes—building, non-building, and touching edges—in order to emphasise the boundary regions between instances.
빌딩 탐지에 성공한 이러한 유형의 인코더-디코더 접근 방식의 예로는 인스턴스 간의 경계 영역을 강조하기 위해 ResNet 기반 인코더와 U-Net[1] 및 빌딩, 비빌딩 및 터치 엣지 등 세 가지 출력 클래스를 사용하는 TernausNetV2[4]가 있다.
Other successful building detection methods have used different ways of increasing the model’s focus on edges of nearby instances, such as distance-based weighting of pixels in the loss [5].
다른 성공적인 건물 감지 방법은 손실에서 픽셀의 거리 기반 가중치와 같이 주변 인스턴스의 가장자리에 대한 모델의 초점을 높이는 다양한 방법을 사용했습니다[5].


The CVPR DeepGlobe Challenge [6] posed three satellite imagery tasks: building detection, road detection and land cover mapping.
CVPR DeepGlobe Challenge[6]는 건물 감지, 도로 감지 및 토지 덮개 매핑의 세 가지 위성 이미지 작업을 제시했습니다.

Of the 22 top entries for building detection, 13 were based on U-Net [1] and only one used an end-to-end instance segmentation model (Mask-RCNN [7]).
건물 탐지에 대한 상위 22개 항목 중 13개는 U-Net을 기반으로 했으며[1] 단 하나는 종단 간 인스턴스 분할 모델(Mask-RCNN[7])을 사용했습니다.

The SpaceNet challenge [8] has convened a number of building detection challenges, most recently the Multi-Temporal Urban Development Challenge [9], for which four of the top five entries were based on U-Net.
SpaceNet 챌린지[8]는 여러 건물 감지 챌린지를 소집했으며 가장 최근에는 Multi-Temporal Urban Development Challenge[9]에 대해 상위 5개 항목 중 4개가 U-Net을 기반으로 했습니다.

The overall best performing method was HRNet [9], a semantic segmentation model with a different architecture to U-Net, in that it dispenses with a decoder stage and uses adaptive spatial pooling.
전반적으로 가장 좋은 성능을 발휘하는 방법은 U-Net과 아키텍처가 다른 의미론적 분할 모델인 HRNet[9]으로 디코더 단계가 필요 없고 적응형 공간 풀링을 사용합니다.


While progress has been made on methods for building detection in satellite imagery, the available evidence in the literature and from competitions is limited in geographical scope.
literature 문헌
위성 이미지에서 탐지를 구축하는 방법에 대한 진전이 있었지만 문헌 및 대회에서 사용할 수 있는 증거는 지리적 범위가 제한적입니다.

The SpaceNet buildings dataset covers six cities:Atlanta, Khartoum, Las Vegas, Paris, Rio de Janeiro, and Shanghai.
SpaceNet 건물 데이터 세트는 다음 6개 도시를 다룹니다. : 애틀랜타, 하르툼, 라스베가스, 파리, 리우데자네이루, 상하이.

The SpaceNet Multi-Temporal Urban Development dataset contains labelled images from much more diverse geography (41,000km 2 of imagery in 101 locations), although given the nature of the challenge, the locations are mainly semi-urban.
SpaceNet Multi-Temporal Urban Development 데이터 세트에는 훨씬 더 다양한 지리의 레이블이 지정된 이미지(101개 위치의 이미지 41,000km 2)가 포함되어 있지만, 과제의 특성을 감안할 때 위치는 주로 반도심입니다.

Image resolution in this dataset is 4m per pixel, which also means that detections are limited to larger buildings.
이 데이터 세트의 이미지 해상도는 픽셀당 4m이며, 이는 감지가 더 큰 건물로 제한된다는 의미이기도 합니다.

In this work, we provide the first empirical results on the feasibility of detecting the majority of buildings across an entire continent from 50 cm imagery, assessing model generalisation across many types of terrain and cultures/styles in widely differing urban and rural settings.
이 작업에서 우리는 50cm 이미지에서 대륙 전체에 걸쳐 대부분의 건물을 감지하는 가능성에 대한 첫 번째 경험적 결과를 제공하고 광범위하게 다른 도시 및 시골 설정에서 다양한 유형의 지형과 문화/스타일에 대한 모델 일반화를 평가합니다.

3 Datasets

We next describe the continent-wide datasets prepared for the training and evaluation of building detection models, and with varying levels of labelling.
다음으로 건물 감지 모델의 교육 및 평가를 위해 준비된 대륙 전체의 데이터 세트와 다양한 수준의 레이블을 설명합니다.
The first category is a set of satellite images with full instance labels, used for conventional supervised learning and also the basis of our evaluation.
첫 번째 범주는 기존 지도 학습 및 평가의 기초에 사용되는 전체 인스턴스 레이블이 있는 위성 이미지 세트입니다.
Secondly, we prepared a larger set of images with class labels corresponding to pretext tasks, suitable for pre-training.
둘째, 사전 훈련에 적합한 구실 작업에 해당하는 클래스 레이블이 있는 더 큰 이미지 세트를 준비했습니다.
Thirdly, we prepared a set of images with no labels at all, used for unsupervised self-training.
셋째, 비지도 자가 훈련에 사용되는 레이블이 전혀 없는 이미지 세트를 준비했습니다.
For additional evaluation of the final dataset, we also prepared a sparsely-labelled evaluation dataset. These datasets are summarised in Table 1.
최종 데이터 세트의 추가 평가를 위해 드문드문 레이블이 지정된 평가 데이터 세트도 준비했습니다. 이러한 데이터 세트는 표 1에 요약되어 있습니다.

profile
인공지능 전문가가 될레요

0개의 댓글