ISNet: Towards Improving Separability for Remote Sensing Image Change Detection 제1부

이준석·2022년 10월 9일
0

ISNet: Towards Improving Separability for Remote Sensing Image Change Detection
ISNet: 원격 감지 이미지 변경 감지를 위한 분리성 향상을 향하여

Abstract

Deep learning has substantially pushed forward remote sensing image change detection through extracting discriminative hierarchical features.
딥 러닝은 구별되는 계층적 특징을 추출하여 원격 감지 이미지 변경 감지를 상당히 발전시켰습니다.

However, as the increasingly high-resolution remote sensing images have abundant spatial details but limited spectral information, the use of conventional backbone networks would give rise to blurry boundaries between different semantics among hierarchical features.
그러나 점점 더 고해상도의 원격 센싱 이미지가 공간적 세부 사항은 풍부하지만 스펙트럼 정보는 제한됨에 따라 기존의 백본 네트워크를 사용하면 계층적 기능 간의 서로 다른 의미 간의 경계가 모호해집니다.

This explains why most false alarms in the final predictions distribute around change boundaries. To alleviate the problem, we pay attention to feature refinement and propose deep learning networks that deliver improved separability (ISNet).
이것은 최종 예측에서 대부분의 잘못된 경보가 변경 경계 주위에 분포하는 이유를 설명합니다. 이 문제를 완화하기 위해 기능 개선에 주의를 기울이고 향상된 분리성을 제공하는 딥 러닝 네트워크(ISNet)를 제안합니다.

Our ISNet reaps the advantages from two strategies applied to refining bitemporal feature hierarchies:
1) margin maximization that clarifies the gap between changed and unchanged semantics
2) targeted arrangement of attention mechanisms that direct the use of channel attention (CA) and spatial attention (SA) for highlighting semantic and positional information, respectively.
우리의 ISNet은 양측 피쳐 계층 구조를 다듬는 데 적용된 두 가지 전략의 이점을 얻습니다.
1) 변경된 의미와 변경되지 않은 의미 사이의 간격을 명확히 하는 마진 최대화
2) 의미 및 위치 정보를 각각 강조하기 위해 채널 주의(CA) 및 공간 주의(SA)의 사용을 지시하는 주의 메커니즘의 표적 배열.

Specifically, we insert CA modules into share-weighted backbone networks to facilitate semantic-specific feature extraction. The semantic boundaries in the extracted bitemporal hierarchical features are then clarified by margin maximization modules, followed by SA modules to enhance positional change responses.
특히 의미론적 특징 추출을 용이하게 하기 위해 CA 모듈을 공유 가중치 백본 네트워크에 삽입합니다. 추출된 바이템포럴 계층적 특징의 의미론적 경계는 마진 최대화 모듈에 의해 명확해지고 위치 변화 응답을 향상시키기 위한 SA 모듈이 뒤따릅니다.

A top–down fusion pathway makes the final refined features cover multiscale representations and have strong separability for remote sensing image change detection.
하향식 융합 경로는 최종 정제된 기능이 다중 스케일 표현을 포함하고 원격 감지 이미지 변경 감지를 위한 강력한 분리성을 갖도록 합니다.

Extensive experimental evaluations demonstrate that our ISNet achieves stateof-the-art performance on the LEVIR-CD, SYSU-CD, and Season-Varying datasets in terms of overall accuracy (OA), Intersection-of-Union (IoU), and F1 score. Code is available at https://github.com/xingronaldo/ISNet.
광범위한 실험 평가를 통해 ISNet이 전체 정확도(OA), Intersection-of-Union(IoU) 및 F1 점수 측면에서 LEVIR-CD, SYSU-CD 및 Season-Varying 데이터 세트에서 최첨단 성능을 달성했음을 보여줍니다. . 코드는 https://github.com/xingronaldo/ISNet에서 사용할 수 있습니다.


V. CONCLUSION

This article investigates the strategical and architectural designs for remote sensing image change detection. We study against the problem of blurry boundaries between different semantics among hierarchical features.
이 기사에서는 원격 감지 이미지 변경 감지를 위한 전략적 및 아키텍처 설계를 조사합니다. 우리는 계층적 특징들 사이의 다른 의미들 사이의 모호한 경계의 문제에 대해 연구합니다.
We propose deep learning networks that deliver improved separability (ISNet) equipped with a combination of two strategies (i.e., margin maximization and targeted arrangement of attention mechanisms) and elaborate architectures.
우리는 두 가지 전략(즉, 마진 극대화 및 주의 메커니즘의 표적 배열)과 정교한 아키텍처의 조합을 갖춘 향상된 분리성(ISNet)을 제공하는 딥 러닝 네트워크를 제안합니다.
Our ISNet achieves state-of-the-art performance on three public datasets. Besides, we show that an effective refinement of bitemporal hierarchical features matters for accurate change detection.
당사의 ISNet은 3개의 공개 데이터 세트에서 최첨단 성능을 달성합니다. 게다가, 우리는 정확한 변화 감지를 위해 양측 계층적 특징의 효과적인 개선이 중요하다는 것을 보여줍니다.


I. INTRODUCTION

Detecting land-cover changes using bitemporal remote sensing images has practical uses in various applications, including land management, damage assessment, and environment monitoring [1]–[3].
양측 원격탐사 영상을 이용한 토지피복변화 감지는 토지관리, 피해평가, 환경감시 등 다양한 응용분야에서 실용적으로 활용되고 있다[1]-[3].

Given bitemporal images showing altered spectral behavior [1], change detection aims to discriminate those spectral alterations caused by changes of interest from those brought by not exactly consistent imaging conditions.
변경된 스펙트럼 동작을 나타내는 양쪽 시간 이미지가 주어지면 [1], 변경 감지는 정확히 일치하지 않는 이미징 조건으로 인해 발생하는 스펙트럼 변경과 관심 변경으로 인해 발생하는 스펙트럼 변경을 구별하는 것을 목표로 합니다.

Image registration and radiometric correction are indispensable image preprocessing procedures to eliminate the negative effects of geometric and radiometric factors [4].
이미지 등록 및 방사 보정은 기하학적 및 방사 측정 요소의 부정적인 영향을 제거하기 위해 필수적인 이미지 전처리 절차입니다[4].


Traditional change detection approaches evolved in relation to the basic analysis units, i.e., from independent image pixels to segmented objects involving contextual information [5]–[7].
기존의 변화 감지 접근법은 기본 분석 단위, 즉 독립적인 이미지 픽셀에서 상황 정보를 포함하는 분할된 객체로 발전했다[5]–[7].

Most pixel-based methods work in an unsupervised manner [8]. First, a difference image is generated through simple arithmetical operations (e.g., image differencing and image rationing), simple transformations (e.g., change vector analysis and principal component analysis), or a combination of both [9]. Then, the change map of interest is obtained by thresholding or clustering analysis on the difference image [10], [11].
대부분의 픽셀 기반 방법은 감독되지 않은 방식으로 작동합니다[8]. 첫째, 차분 이미지는 간단한 산술 연산(예: 이미지 차분 및 이미지 배급), 간단한 변환(예: 변경 벡터 분석 및 주성분 분석) 또는 이 둘의 조합을 통해 생성됩니다[9]. 그런 다음 차이 이미지에 대한 임계값 또는 클러스터링 분석을 통해 관심 변경 맵을 얻습니다[10], [11].

The rise of the postclassification comparison paradigm enabled supervised learning on large volumes of available data [9], [12], [13]. While the pixel-based approaches utilized spectral information independently, the object-based methods emerged to cope with spectral variation in veryhigh-resolution (VHR) remote sensing images by allowing the exploitation of spatial context in segmented objects [1].
분류 후 비교 패러다임의 등장으로 대량의 가용 데이터에 대한 지도 학습이 가능해졌습니다[9], [12], [13]. 픽셀 기반 접근 방식이 스펙트럼 정보를 독립적으로 활용하는 반면, 객체 기반 방법은 분할된 객체에서 공간 컨텍스트의 활용을 허용함으로써 초고해상도(VHR) 원격 감지 이미지의 스펙트럼 변화에 대처하기 위해 등장했습니다[1].

However, the performance of classic object-based methods is still heavily limited by: 1) the normally handcrafted shadow features that encode insufficient variation and 2) the problem of error accumulation from object segmentation to change detection [14], [15]. Overall, traditional change detection approaches struggle to detect changes within the increasingly high-resolution remote sensing images.
그러나 고전적인 객체 기반 방법의 성능은 1) 불충분한 변동을 인코딩하는 일반적으로 손으로 만든 그림자 기능 및 2) 객체 분할에서 변경 감지까지의 오류 누적 문제로 인해 여전히 크게 제한됩니다[14,15]. 전반적으로 기존의 변경 감지 방식은 점점 더 고해상도의 원격 감지 이미지 내에서 변경 사항을 감지하는 데 어려움을 겪고 있습니다.


Recent advances in deep learning have dispersed into the field of remote sensing image change detection. Convolutional neural networks (CNNs), such as ResNet series [16] and UNet series [17], are commonly leveraged as the backbone networks to help extract discriminative hierarchical features [18], [19] from bitemporal remote sensing images.
최근 딥 러닝의 발전은 원격 감지 이미지 변화 감지 분야로 확산되었습니다. ResNet 시리즈[16] 및 UNet 시리즈[17]와 같은 CNN(Convolutional Neural Networks)은 일반적으로 양측 원격 감지 이미지에서 구별되는 계층적 특징[18], [19]을 추출하는 데 도움이 되는 백본 네트워크로 활용됩니다.

One major division in deep learning-based change detection approaches is “earlyfusion” versus “late-fusion” [20]. The methods that realize early fusion integrate bitemporal information at the image level, i.e., the network input. For example, Zheng et al. [21] stacked bitemporal images along the channel dimension and proposed a cross-layer CNN to incorporate multiscale features and multilevel contexts.
딥 러닝 기반 변경 감지 접근 방식의 주요 부문 중 하나는 "초기 융합" 대 "후기 융합"입니다[20]. 초기 융합을 구현하는 방법은 이미지 수준, 즉 네트워크 입력에서 양측 정보를 통합합니다. 예를 들어 Zheng et al. [21]은 채널 차원을 따라 바이템포럴 이미지를 쌓고 다중 스케일 기능과 다중 레벨 컨텍스트를 통합하기 위해 교차 레이어 CNN을 제안했습니다..

By contrast, the methods that realize late fusion integrate bitemporal information at the feature level.
In general, share-weighted (a.k.a., Siamese-based) backbone networks are first used to extract bitemporal features, separately.
이에 반해 후기 융합을 구현하는 방법은 특성 수준에서 양측 정보를 통합합니다.
일반적으로 공유 가중치(일명 샴 기반) 백본 네트워크는 먼저 양측 특징을 개별적으로 추출하는 데 사용됩니다.

The extracted features are then processed and fused for downstream decision-making. Zhang et al. [22] followed this scheme and proposed a deeply supervised image fusion network to deal with the complexity of VHR images. Our proposed change detection method also accords with the scheme.
추출된 특징은 처리되고 다운스트림 의사 결정을 위해 융합됩니다. Zhang et al. [22]는 이 방식을 따르고 VHR 이미지의 복잡성을 처리하기 위해 깊이 감독된 이미지 융합 네트워크를 제안했습니다. 제안하는 변경 감지 방법도 이 방식과 일치합니다.


The long-standing idea of strengthening change information and suppressing unchanged information [23] is also applicable to the current deep learning-based approaches.
Attention mechanisms serve as the technical carrier [24].
Recent years have seen various methods empowered by attention mechanisms developed for enhancing the separability of deep learning features [25]–[31]. To name a few, Liu et al. [25] and Shi et al.
변경 정보를 강화하고 변경되지 않은 정보를 억제한다는 오랜 아이디어[23]는 현재의 딥 러닝 기반 접근 방식에도 적용할 수 있습니다.
주의 메커니즘은 기술 매개체 역할을 합니다[24].
최근 몇 년 동안 딥 러닝 기능의 분리 가능성을 향상시키기 위해 개발된 주의 메커니즘에 의해 강화된 다양한 방법이 있었습니다[25]–[31]. 몇 가지 예를 들면 Liu et al. [25] 및 Shi et al.

[26] used convolutional block attention modules [32] that assemble channel attention (CA) and spatial attention (SA) to optimize hierarchical features.
Chen et al. [27] revised vision transformer [33] that conveys self-attention to refine the features produced in the last layer of CNN-based backbones. The above methods processed bitemporal features independently and performed bitemporal feature fusion at the very end of feature refinement. To respect the feature-level temporal correlation [9], our proposed method processes and fuses bitemporal features progressively.
Chen et al. [27] CNN 기반 백본의 마지막 계층에서 생성된 기능을 개선하기 위해 자체 주의를 전달하는 수정된 비전 변환기 [33]. 위의 방법들은 양측 특징을 독립적으로 처리하고 특징 정제의 맨 마지막에 양측 특징 융합을 수행하였다. 특징 수준의 시간적 상관관계를 존중하기 위해 우리가 제안하는 방법은 점진적으로 양시간 특징을 처리하고 융합합니다.

The development of multispectral imaging makes it conveniently accessible to VHR remote sensing images, which contains abundant spatial details to delicately describe texture, shape, and so on [3], [4]. However, the limited spectral information in VHR images brings low interclass variation (and high intraclass variation) [4] and, thus, poses great challenges to change detection. On the other hand, the use of plain convolutions in conventional backbone networks (e.g., ResNet series and UNet series) produces regular reception fields.
다중 스펙트럼 이미징의 개발로 VHR 원격 감지 이미지에 편리하게 액세스할 수 있게 되었으며, 질감, 모양 등을 섬세하게 묘사할 수 있는 풍부한 공간 세부 정보가 포함되어 있습니다[3], [4]. 그러나 VHR 이미지의 제한된 스펙트럼 정보는 낮은 클래스 간 변동(및 높은 클래스 내 변동)[4]을 가져오므로 변경 감지에 큰 어려움이 있습니다. 반면, 기존의 백본 네트워크(예: ResNet 시리즈 및 UNet 시리즈)에서 일반 컨볼루션을 사용하면 규칙적인 수신 필드가 생성됩니다.

Due to the data characteristic and the network property, the loss of detailed information during feature extraction would give rise to blurry boundaries between different semantics among hierarchical features.
As a result, the predictions around change boundaries would be incredible, and a plethora of false alarms are raised. Fang et al. [31] stressed the importance of high-resolution low-level features that are correlated with plentiful spatial details and proposed ensemble CA for deep supervision.
데이터 특성 및 네트워크 속성으로 인해 특성 추출 중 세부 정보가 손실되면 계층적 특성 간의 서로 다른 의미 간의 경계가 모호해집니다.
결과적으로 변경 경계에 대한 예측은 믿을 수 없을 것이며, 잘못된 경보가 많이 발생합니다. Fang et al. [31]은 풍부한 공간 세부 정보와 상관 관계가 있는 고해상도 저수준 기능의 중요성을 강조하고 심층 감독을 위한 앙상블 CA를 제안했습니다.

profile
인공지능 전문가가 될레요

0개의 댓글