ITFuse: An interactive transformer for infrared and visible image fusion

홍성민·2025년 1월 21일
0

논문 리뷰

목록 보기
20/20

Overview Framework

  • FIM(Feature Interaction Module)은 unique, common feature를 동시에 뽑기 위함으로 설계 되었음

  • I1,I2I_1, I_2는 source image branch이며 RAM, ITA로 구성되어 있음

  • RAM는 feature extractor, ITA는 complementary feature extractor 역할임

  • IcI_cI1,I2I_1, I_2를 concatenate한 것으로 common feature를 extraction할 수 있음

  • Homogeneous feature는 residual/conv block에서, Heterogeneous feature는 ITA에서 extraction한다.


RAB(Residual Attention Block)

  • 이는 attention block으로 horizontal, vertical 기준으로 GAP을 통해 spatial attention을 적용하는데, 이를 bidirectional pooling이라고 함

  • 이 module에서 개인적으로 의문이 드는 것은, bidirectional pooling을 하고 concatenate을 해주었는데 각 unique direction의 feature을 얻기 위해 concat이 아닌 independent하게 1x1 conv operation을 적용해주는 것이 맞다고 생각이 들었음


ITA(Interactive Attention)

  • 이는 dynamically contextual information을 추출하기 위함으로, self-attention과 유사한 구조임

  • 이는 I1,I2I_1, I_2가 각각 있으므로 I1I_1기준으로 설명하면 다음과 같음

  • KI1I_1에서 conv연산을 통해 encoding하여 FkF_k가 output임

  • Q는 F_2^i로 I_2에서 RB의 output인데, Q에 왜 conv연산이 없는 이유를 생각해보았는데 이는 F_1^i를 기준으로 attention을 적용해야하기 때문임

  • 만약 Q에다가 똑같이 conv연산을 해주게 되면, 모델 input이 I1,I2,IcI_1,I_2,I_c가 의미가 없어지게 되며 K가 1단계 더 깊은 layer를 쌓아 중요도를 높이는 것이 맞음

  • 따라서 QFkF_k를 element-wise summation하게 되면 Q보다는 FKF_K에 더 중요한 정보가 있게되어 FIM구조가 유지될 수 있으며 2개의 conv가 지나면 FDF_D가 output임

  • VIcI_cI1,I2I_1,I_2의 common feature를 최대한 유지하기 위해 1x1 conv연산을 해줌으로써 FVF_V가 output임

  • 따라서 ITA의 최종 output은 Fita0=(FD×FV)+FKF_ita^0=(F_D×F_V )+F_K로 각 source image의 unique, common feature를 얻을 수 있음

  • FD×FVF_D×F_V에서 S(FD)×S(FV)S(F_D)×S(F_V)로 weight map을 만드는 것이 더 옳바른 방향인 것으로 보임


Cross-modal Attention

  • F1n,F2nF_1^n,F_2^n은 자신의 feature를 더 많이 가지고 있으며, 동시에 FcnF_c^n의 정보도 첨가되어 있음

  • ITA와 다른점은 attention map을 구할 때 F1n,F2nF_1^n,F_2^n에 똑같이 conv를 쌓아 중요도를 서로 같게 해주었다는 것으로 complementary information을 뽑아낼 수 있으나, ITA를 적용하는 과정에서 서로 다른 modality를 comprehensive information의 가중치를 곱해주어 redundant information이 남아있을 수 밖에 없음 (FV×FD)(F_V×F_D)

  • 즉, F1n,F2nF_1^n,F_2^n이 같은 중요도를 갖는다고 하여 동일한 conv block 적용 후 summation하면 redundant information이 있을 수 밖에 없음, 그래서 FcnF_c^n은 common feature로 redundant information만을 가져감, 그렇다면 이를 각각 multiply하게 되면 redundant information을 제거할 수 있다고 논문에 나와있는데, 이는 잘못된 표현임

Inference

  • TNO Dataset으로 pre-trained model로 inference해보았는데, fusion result에서 complementary information이 매우 부족하다는 것을 알 수 있으며, ITA 및 CMA의 한계점을 확인할 수 있음
profile
할거면 똑바로 하고 아님 말자

0개의 댓글

관련 채용 정보