이미지 복원 작업은 이미지를 복원하는 동안 공간 세부 정보와 높은 수준의 contextualized 정보 간의 복잡한 균형을 요구한다. 이 논문에서 저자들은 이 균형을 맞춰줄 수 있는 새로운 모델로 Multi-stage 구조를 제안했다.
저자들이 제안한 이 모델은 degrade된 input에 대한 복원 기능을 점진적으로 학습하여 전체 복원 프로세스를 관리 가능한 단계로 세분화한다.
처음에 모델은 Encoder-Decoder 구조를 이용하여 contextualized function을 학습하고, 나중에 이것과 local 정보를 유지하는 고해상도 branch와 결합한다. 그리고 각 단계에서 local feature들의 가중치를 재조정하기 위해 내부 supervised attention을 활용하는 새로운 per-pixel adaptive design을 도입한다.
adaptive design이란 각기 다른 이미지 크기 마다 그에 알맞게 조정되는 graphical user interface (GUI) design을 말한다.
multi-stage 구조에서 핵심 요소는 다른 단계들 사이 간 정보 교환이다. 저자들은 정보가 초기 단계부터 후기 단계까지 순차적으로 교환되는 것과 정보의 손실을 막기 위한 feature processing block들 사이의 측면 연결, 이 두 가지 접근법을 제안한다.
긴밀하게 연결된 multi-stage 구조를 MPRNet이라 부르며, 이는 deraining, deblurring, denoising 등 다양한 작업에 걸쳐 10개의 dataset에서 강력한 성능 향상을 보인다.
Encoder-Decoder Subnetwork는 기본 U-Net을 기반으로 하였으며, network의 구성요소는 다음과 같다.
input 이미지에서 output 이미지까지 fine detail들을 보존하기 위해 저자들은 후기 단계에서 original-resolution subnetwork(ORSNet)을 도입하였다. ORSNet은 downsampling operation을 사용하지 않고 공간적으로 풍부한 고해상도 feature들을 만들어냈다. 이것은 여러 original resolution blocks(ORBs)로 구성되어 있으며, 각 block에는 CABs가 추가로 포함되어 있다.
저자들은 Encoder-Decoders 사이(왼쪽)와 Encoder-Decoder과 ORSNet 사이(오른쪽)에 Cross-stage Feature Fusion(CSFF) 모듈을 도입하였다. 제안한 CSFF는 몇 가지 장점들을 가지고 있다.
최근 image 복원을 위한 multi-stage 네트워크들은 각 단계에서 바로 이미지를 예측하고 다음 단계로 통과된다. 하지만 저자들은 모든 두 단계 사이에 supervised attention module(SAM)을 도입했고, 이로 인해 충분한 성능을 얻을 수 있게 되었다. SAM은 다음과 같이 두 가지를 기여하였다.
https://github.com/seogihyun/Super_Resolution/tree/master/MPRNet