논문 : https://arxiv.org/abs/2111.15491
PolyWorld: 위성 이미지에서 그래프 신경망을 사용한 다각형 건물 추출
While most state-of-the-art instance segmentation methods produce binary segmentation masks, geographic and cartographic applications typically require precise vector polygons of extracted objects instead of rasterized output.
대부분의 최첨단 인스턴스 분할 방법은 이진 분할 마스크를 생성하지만 지리 및 지도 제작 응용 프로그램은 일반적으로 래스터화된 출력 대신 추출된 객체의 정확한 벡터 다각형을 필요로 합니다.
This paper introduces PolyWorld, a neural network that directly extracts building vertices from an image and connects them correctly to create precise polygons.
본 논문에서는 이미지에서 건물의 꼭지점을 직접 추출하여 정확하게 연결하여 정확한 폴리곤을 생성하는 신경망인 PolyWorld를 소개합니다.
The model predicts the connection strength between each pair of vertices using a graph neural network and estimates the assignments by solving a differentiable optimal transport problem.
모델은 그래프 신경망을 사용하여 각 정점 쌍 간의 연결 강도를 예측하고 미분 가능한 최적 전송 문제를 해결하여 할당을 추정합니다.
Moreover, the vertex positions are optimized by minimizing a combined segmentation and polygonal angle difference loss.
또한 결합된 분할 및 다각형 각도 차이 손실을 최소화하여 정점 위치를 최적화합니다.
PolyWorld significantly outperforms the state of the art in building polygonization and achieves not only notable quantitative results, but also produces visually pleasing building polygons.
PolyWorld는 건물 다각형화에서 최첨단 기술을 훨씬 능가하며 주목할만한 양적 결과를 달성할 뿐만 아니라 시각적으로 만족스러운 건물 다각형을 생성합니다.
We presented PolyWorld, a novel method capable of elegantly extracting building polygons from satellite and aerial images in an end-to-end manner.
우리는 위성 및 항공 이미지에서 건물 다각형을 종단 간 방식으로 우아하게 추출할 수 있는 새로운 방법인 PolyWorld를 제시했습니다.
The evaluation results experimentally prove the power and effectiveness of self-attention graph neural networks for matching and positional refinement of detected building vertices.
평가 결과는 감지된 건물 정점의 일치 및 위치 미세 조정을 위한 self-attention 그래프 신경망의 위력과 효율성을 실험적으로 증명합니다.
By solving an optimal transport problem, our method provides strong and reliable vertex connections and implicitly avoids redundant points.
최적의 전송 문제를 해결함으로써 우리의 방법은 강력하고 안정적인 정점 연결을 제공하고 중복 지점을 암시적으로 방지합니다.
Our experiments show that PolyWorld significantly outperforms existing building extraction approaches, enabling highly accurate and regular building footprints, which fulfill the strict requirements of geographic and cartographic applications.
우리의 실험에 따르면 PolyWorld는 기존 건물 추출 접근 방식을 훨씬 능가하여 지리 및 지도 제작 응용 프로그램의 엄격한 요구 사항을 충족하는 매우 정확하고 규칙적인 건물 발자국을 가능하게 합니다.
The extraction of vector representations of building polygons from aerial and satellite imagery has been growing in importance in many remote sensing applications, such as cartography, city modelling and reconstruction, as well as map generation.
항공 및 위성 이미지에서 건물 다각형의 벡터 표현을 추출하는 것은 지도 제작, 도시 모델링 및 재구성, 지도 생성과 같은 많은 원격 감지 응용 프로그램에서 중요성이 커지고 있습니다.
Most building extraction and polygonization methods rely on the vectorization of probability maps produced by a segmentation network.
대부분의 건물 추출 및 다각형화 방법은 분할 네트워크에서 생성된 확률 맵의 벡터화에 의존합니다.
These approaches are not end-to-end learned, which means that imperfections and artifacts produced by the segmentation model are carried through the entire pipeline with the consequent generation of unregular polygons.
이러한 접근 방식은 종단 간 학습이 아니며, 이는 분할 모델에 의해 생성된 불완전성과 아티팩트가 결과적으로 불규칙한 폴리곤의 생성과 함께 전체 파이프라인을 통해 수행된다는 것을 의미한다.
In this paper, we present a new way of tackling the building polygonization problem.
이 논문에서는 건물의 다각형화 문제를 해결하는 새로운 방법을 제시합니다.
Rather than learning a segmentation network which is then followed by a polygonization method, we propose a novel neural network architec-ture called PolyWorld that detects building corners from a satellite image and uses a learned matching procedure to connect them in order to form polygons.
다각형화 방법이 뒤따르는 분할 네트워크를 학습하는 대신 위성 이미지에서 건물 모서리를 감지하고 학습된 매칭 절차를 사용하여 연결하여 다각형을 형성하는 PolyWorld라는 새로운 신경망 아키텍처를 제안합니다.
Thereby, our method allows the generation of valid polygons in an endto-end fashion.
Since building detection and segmentation from satellite images has been of major research interest throughout the last few decades, discussing all work is beyond the scope of this paper.
위성 이미지에서 건물을 감지하고 분할하는 것은 지난 수십 년 동안 주요 연구 관심사였으므로 모든 작업에 대해 논의하는 것은 이 백서의 범위를 벗어납니다.
In this section we therefore focus on the most relevant contributions in different related categories.
따라서 이 섹션에서는 다양한 관련 범주에서 가장 관련성이 높은 기여에 중점을 둡니다.
Before the great success of deep learning methods, building footprint delineation was mainly done with multi-step, bottom-up approaches by combining multi-spectral overhead images and airborne LIDAR data [3, 31].
딥 러닝 방법의 큰 성공 이전에는 주로 다중 스펙트럼 오버헤드 이미지와 공중 LIDAR 데이터를 결합하여 다단계, 상향식 접근 방식으로 발자국 묘사를 수행했습니다[3, 31].
The majority of these segmentation models are trained with cross entropy, soft intersection over union, or Focal based losses [4, 18, 28, 34], achieving high scores in terms of intersection over union, recall, and precision, but mostly generating irregular building outlines that are neither visually pleasing, nor employable in most cartographic applications.
이러한 분할 모델의 대부분은 교차 엔트로피, 합집합에 대한 연교차 또는 초점 기반 손실[4, 18, 28, 34]로 훈련되어 합집합, 회상 및 정밀도 측면에서 높은 점수를 얻지만 대부분 불규칙한 결과를 생성합니다. 시각적으로 즐겁지 않고 대부분의 지도 제작 응용 프로그램에서 사용할 수 없는 건물 개요.
DSAC [24] employs an Active Contour Model to integrate geometrical priors and constraints in the segmentation process, while DARNet [7] proposes a loss function that encourages the contours to match the building boundaries.
DSAC[24]는 분할 프로세스에서 기하학적 사전과 제약을 통합하기 위해 능동 윤곽 모델을 사용하는 반면, DARNet[7]은 윤곽이 건물 경계와 일치하도록 권장하는 손실 함수를 제안합니다.
Another technique to make the building contours more regular and realistic is to combine adversarial and regularized losses [35, 36, 40].
건물 윤곽을 보다 규칙적이고 사실적으로 만드는 또 다른 기술은 적대적 손실과 정규화된 손실을 결합하는 것입니다[35, 36, 40].
Standard semantic and instance segmentation networks are easy to train and generate accurate segmentation masks, but most remote sensing applications that involve building layers require segmentation data in vector format rather than rasterized masks.
표준 시맨틱 및 인스턴스 분할 네트워크는 훈련하고 정확한 분할 마스크를 생성하기 쉽지만 레이어 구축과 관련된 대부분의 원격 감지 응용 프로그램에는 래스터화된 마스크가 아닌 벡터 형식의 분할 데이터가 필요합니다.
Object detection and polygonization methods found in literature can be classified into two categories.
문헌에서 볼 수 있는 물체 감지 및 다각형화 방법은 두 가지 범주로 분류할 수 있습니다.
The first category includes methods that perform the vectorization of grid-like information, e.g. the probability map produced by a segmentation network.
첫 번째 범주에는 그리드와 유사한 정보의 벡터화를 수행하는 방법이 포함됩니다. 세분화 네트워크에 의해 생성된 확률 맵.
In [38] the authors corrected the segmentation masks produced with Mask RCNN [13] by first simplifying the detected boundaries using the Douglas-Peucker algorithm [9] and subsequently refining the resulting polygons using a Minimum Descriptor Length method [32].
[38]에서 저자는 먼저 Douglas-Peucker 알고리즘[9]을 사용하여 감지된 경계를 단순화한 다음 Minimum Descriptor Length 방법[32]을 사용하여 결과 다각형을 정제하여 Mask RCNN[13]으로 생성된 분할 마스크를 수정했습니다.
More recently, Chen et al. [6] suggested to regularize the segmentation produced with a CNN via quantizing the histogram of building boundaries in angle space, which can be achieved by exploiting a Relative Angle Gradient Transform.
최근에는 Chen et al. [6]은 각도 공간에서 건물 경계의 히스토그램을 양자화하여 CNN으로 생성된 분할을 정규화할 것을 제안했으며 이는 상대 각도 기울기 변환을 활용하여 달성할 수 있습니다.