Satellite Image Semantic Segmentation 제1부

이준석·2022년 9월 26일
0

논문링크 : https://arxiv.org/abs/2110.05812

Abstract

In this paper, we propose a method for the automatic semantic segmentation of satellite images into six classes (sparse forest, dense forest, moor, herbaceous formation, building, and road).
본 논문에서는 인공위성 영상을 6개의 클래스(희소한 숲, 울창한 숲, 황무지, 초본층, 건물, 도로)로 자동 의미론적으로 분할하는 방법을 제안한다.

We rely on Swin Transformer architecture and build the dataset from IGN open data.
우리는 Swin Transformer 아키텍처에 의존하고 IGN 오픈 데이터에서 데이터 세트를 구축합니다.

We report quantitative and qualitative segmentation results on this dataset and discuss strengths and limitations. The dataset and the trained model are made publicly available.
우리는 이 데이터 세트에 대한 양적 및 질적 세분화 결과를 보고하고 강점과 한계를 논의합니다. 데이터 세트와 훈련된 모델은 공개적으로 사용 가능합니다.

1. Introduction

Virtual worlds in the context of digital entertainment need to be vast and realistic.
디지털 엔터테인먼트의 맥락에서 가상 세계는 방대하고 현실적이어야 합니다.
These two factors force industries to resort to using artists massively.
이 두 가지 요인으로 인해 업계는 아티스트를 대규모로 사용하게 됩니다.
In the same time, more and more geographic data such as digital satellite photography become publicly available.
동시에 디지털 위성 사진과 같은 지리 데이터가 공개적으로 사용 가능하게 되었습니다.
Unfortunately, this data is rarely segmented and cannot be used directly.
불행히도 이 데이터는 거의 분할되지 않으며 직접 사용할 수 없습니다.
In the context of the ANR project Ampli 1 , we aim at making the task of virtual worlds authoring easier by providing a way to segment satellite images into six basic landcover classes.
ANR 프로젝트 Ampli 1의 맥락에서, 우리는 위성 이미지를 6개의 기본 랜드 커버 클래스로 분할하는 방법을 제공함으로써 가상 세계 저작 작업을 더 쉽게 만드는 것을 목표로 한다.
The segmentation method we use is Swin Transformer [2] (section 2) and we build the dataset from IGN public data (section 3).
우리가 사용하는 분할 방법은 Swin Transformer[2](섹션 2)이며 IGN 공개 데이터(섹션 3)에서 데이터 세트를 구축합니다.
The obtained results are very promising (section 4) and the trained model is made publicly available together with the training dataset.
얻은 결과는 매우 유망하며(섹션 4) 훈련된 모델은 훈련 데이터 세트와 함께 공개적으로 사용 가능합니다.

2. Swin Transformer Semantic Segmentation

Swin Transformer [2] is a general purpose computer vision backbone that has been proven very efficient and recently at the top of the state-of-the-art for image classification, object detection, and semantic segmentation.
Swin Transformer[2]는 이미지 분류, 객체 감지 및 의미론적 분할 분야에서 매우 효율적이며 최근에 최고 수준으로 입증된 범용 컴퓨터 비전 백본입니다.
Its architecture based on Shifted WINdows makes it robust against scale variability while keeping linear efficiency with respect to the number of pixels.
Shifted WINdows를 기반으로 하는 아키텍처는 픽셀 수에 대한 선형 효율성을 유지하면서 스케일 변동에 대해 견고합니다.
The Shift Windows concept consists in having a window shifted by half of its size in order to limit the self-attention computation to non-overlapping local windows while keeping possible to have cross-window connections.
Shift Windows 개념은 자체 주의 계산을 겹치지 않는 로컬 창으로 제한하면서 창 간 연결을 유지하기 위해 창 크기의 절반으로 이동하는 것으로 구성됩니다.
In our experiments, we use an implementation 2 based on mmsegmentation [1].
우리의 실험에서는 mmsegmentation[1]을 기반으로 한 구현 2를 사용합니다.

3 Data Preparation and Setup

3.1 Dataset sources

To train and test the model, we used open data provided by IGN 3 which concerns French departments (Hautes-Alpes in our case). The following datasets have been used to extract the different layers:
모델을 훈련하고 테스트하기 위해 프랑스 부서(우리의 경우 Hautes-Alpes)와 관련된 IGN 3에서 제공한 공개 데이터를 사용했습니다. 다음 데이터 세트는 다른 레이어를 추출하는 데 사용되었습니다.

• BD Ortho for the satellite images
• BD Foret v2 for vegetation data
• BD Topo for buildings and roads

• 위성 이미지용 BD Ortho
• 식생 데이터용 BD Foret v2
• 건물 및 도로용 BD Topo

Important: note that the data precision is 50cm per pixel. As BD Ortho is already in raster format, the only transformation we had to apply was resampling and cropping.
중요: 데이터 정밀도는 픽셀당 50cm입니다. BD Ortho는 이미 래스터 형식이므로 적용해야 하는 변환은 리샘플링과 자르기뿐이었습니다.
In opposition, BD Foret and BD Topo are vector-based datasets that need to be rasterized before being used. We have used the gdal_rasterize command from GDAL tools to do so.
반대로 BD Foret과 BD Topo는 사용하기 전에 래스터화해야 하는 벡터 기반 데이터 세트입니다. 이를 위해 GDAL 도구의 gdal_rasterize 명령을 사용했습니다.

Initially, a large number of classes were present in the dataset. In BD Foret, a lot of information cannot be inferred from the satellite image (for example, difference between species).
inferred 추론하다
처음에는 데이터 세트에 많은 수의 클래스가 있었습니다. BD Foret에서는 위성 영상에서 많은 정보를 유추할 수 없습니다(예: 종 간의 차이).

We reduced the number of classes by merging them and finally retained the following ones:
병합하여 클래스 수를 줄이고 최종적으로 다음 클래스를 유지했습니다.

• Sparse forest
• Dense forest
• Moor
• Herbaceous formation
• Building
• Road
• 희소 숲
• 울창한 숲
• 무어
• 초본 형성
• 건물
• 도로

The purpose of the two last classes is twofold.
마지막 두 클래스의 목적은 두 가지입니다.
We first wanted to avoid trapping the training into false segmentation, because buildings and roads were visually present in the satellite images and were initially assigned a vegetation class.
우리는 먼저 건물과 도로가 위성 이미지에 시각적으로 존재하며 처음에 식물 클래스가 할당되었기 때문에 훈련을 잘못된 분할에 갇히는 것을 피하고 싶었다.
Second, the segmentation is more precise and gives more identification of the different image elements.
둘째, 분할은 더 정밀하고 다른 이미지 요소를 더 많이 식별합니다.

profile
인공지능 전문가가 될레요

0개의 댓글