Cross-Modal Transformers for Infrared and Visible Image fusion

홍성민·4일 전
0

논문 리뷰

목록 보기
15/15

동국대학교 AI융합학부 전공 수업인 "개별연구(CSC 딥러닝 기반 Computational Camera 기술 연구)"에서 읽고 연구할 논문입니다.

해당 논문은 논문 링크에서 읽으실 수 있으며 github에 코드가 있습니다. (연구실 : Lab)

모델의 성능 개선을 통한 논문 작성을 목표로 하기 때문에 논문 해석, 단어가 무엇을 의미하는지 등 자세하게 다룹니다.


Image fusion이란, 상호 보완적인 정보를 가진 다양한 modality들의 image를 서로 fusion하여 더 많은 정보를 포함한 이미지를 생성하는 것을 목표로 합니다.
(여기서 modality란, RGB, IR 등의 image들을 이야기합니다.)

learning-based의 방식으로 performance가 증가하기는 했지만, Convolution의 depth를 깊게 쌓음으로써(large receptive field 때문에 -> 이는 1개의 pixel당 더 많은 정보를 함양하기 위함) image의 detail, context value를 잃어버린다고 합니다.

따라서 이 논문에서, CMTFusion(cross-model transformer-based fusion)을 통해 source images들 간의 global interaction을 capture합니다.

global interaction이란, data의 모든 요소들이 서로 어떻게 연결되어 있는지를 분석하고, 이를 종합적으로 이해하는 것을 의미하는데 image같은 경우 source image 내의 관계를 고려하는 것을 말합니다.

Image fusion의 pipeline은 다음과 같습니다.
1. RGB, IR image 각각, 서로 다른 kernel size를 가진 filter를 이용하여 feature map을 구성합니다.
2. CMTs를 이용하여 spatial/channel domain에서 redundancy들을 제거합니다. 이는 global interaction을 capture하기 위해 사용합니다.
3. gated bottleneck을 사용합니다. 이는 source image들끼리 더 나은 상호보완적 information을 얻기 위해 source images끼리 interaction합니다.(cross-domain interactions)
4. 마지막으로, fusion image는 fusion block을 통한 refined된 feature map을 통해서 source image간 spatial/channel의 필요한 information만을 뽑아 만들어집니다.

결과적으로, 최신 RGB/IR Image fusion 모델과 비교해 더 우수한 performance를 보였을 뿐만 아니라, computer vision에서도 뛰어난 performance를 입증했습니다.


Introduction

Image fusion은 remote sensing, medical diagnosis, security 등 다양한 산업 분야에서 쓰인다고 합니다.(여기서 말하는 Image fusion은 RGB/IR에 국한되지 않습니다.)

Remote sensing이란,
지구 표면, 대기, 해양 등의 환경을 직접 접촉하지 않고 멀리 떨어진 곳에서 위성, 항공기 등의 장비를 통해 데이터를 수집하는 기술을 말합니다.

Visible image란 RGB image(가시광 이미지)를 이야기하는데 texture details를 매우 잘 capture하는 것이 장점입니다. 하지만 날씨에 따라 image의 변화가 심하다는 것이 단점입니다.

반면에, infrared image는 사물에서 thermal radiation(열 복사) 방출을 capture하기 때문에 날씨에 따른 영향이 매우 적습니다. 하지만 texture detail의 information은 부족합니다.

따라서, RGB/IR Image의 단점들은 서로의 장점을 통해 보완할 수 있습니다.

초기, RGB/IR Image fusion은 multi-scale transform, low-rank representation, sparse representation 등 과 같은 수학적 이론을 기반으로 한 이론들이 나왔다고 합니다.
해당 이론들은 manually designed된 features들로 사용자가 직접 정의하는 듯 하다. 따라서 capability, characterization의 표현 능력은 당연히 limited되어있을 수 밖에 없다. 따라서 deep learning-based approach(CNN)로 발전되고 있다.

논문에서 "limit"라고 표현한 이유는 RGB/IR Image fusion은 서로 다른 information을 제공함으로써 이들의 서로 상호보완적인 information을 효과적으로 fusion하려면 복잡한 pattern을 이해하는 것이 매우 어려워 이를 "limit"라고 표현한 것 같다.

하지만, Convolution layer가 쌓임으로써 high-level information의 정보만 extracted될 뿐, low-level의 대한 정보는 잃게 된다.

High-Level-features
이미지에서 더 추상적이고 의미있는 정보로써, 이미지의 전체적인 맥락이나 객체 간의 관계 등 고차원적 정보를 말합니다. 이는 conv의 depth가 깊으면 깊을수록 해당 features에 대한 정보를 더 많이 가집니다.
Low-Level-features
이미지에서 얻을 수 있는 기본적인 정보로 세부적인 pixel단위의 특성을 이야기합니다.
이는 초기 conv layer에서 extracted됩니다.

전통적인 deep learning-based fusion algorithm들은 고정된 kernel size만을 이용하였기 때문에 local information만을 얻을 수 있었다고 한다. 따라서 source image간의 global interaction을 capture하는 것은 한계가 있을 수 밖에 없다.
(kernel size가 클수록 pixel간의 context를 extract할 수 있지만, convolution연산 시 kernel size가 크면 연산량이 기하급수적으로 올라간다. 최대 O(n2)O(n^2))

따라서 transformer는 NLP에서 long-term dependency를 해결하여 context를 이해하는 것에 특화되었으며 이를 Image fusion에서도 이용한다.
Vision에서는 long-range dependency로 서로 멀리 떨어져 있는 pixel에서도 context를 파악할 수 있도록 한다.

Long-term dependency
data나 information의 여러 element간의 관계가 시간적으로 멀리 떨어져 있거나, 서로 먼 위치에 있을 때도 효과적으로 이해하고 modeling하는 능력을 의미한다.
이를 "Self-Attention"을 통해 해당 문제점을 해결한다.
참조: Attention-is-all-you-need

하지만, image fusion에서 transformer는 매우 훌륭한 performance를 보여주었지만 self-attention의 연산량도 매우 많다고 합니다.
따라서 high-resolution image를 processing하기에는 부적합하다고 합니다.

Abstract에서 말한 pipeline보다 더 자세하게 설명해보겠습니다.
이 논문에서는 source image들 간의 서로 상호보완적인 information을 통해서 image를 fusion하는 것이 목표입니다.(global interaction을 통해서요.)

처음에는 infrared, visible images들의 다양한 feature들을 뽑기 위해 multi-scale의 filter를 이용합니다. coarse-to-fine manner라고 되어있는데 이는 scale이 커졌다가 갈수록 작아지는 것을 의미합니다.(kernel size!!)

다음, source image들 간의 서로 상호보완적인 information을 추출하기 위해서 spatial/channel domain의 redundancy를 제거하고 CMT는 spatial/channel 각각의 transformer로, 독립적으로 구성되어있습니다.
CMT는 global interaction과 context들을 capture함과 동시에 spatial/channel domain의 redundancy를 제거한다고 보시면 됩니다.

gated bottleneck을 통해서 source image들 간의 상호보완적 information을 교환합니다.(이를 cross-domain interaction이라고 표현했습니다.)

이후, fusion block은 refined된 feature들로 fusion image의 결과를 생성합니다.

profile
할거면 똑바로 하고 아님 말자

0개의 댓글