(배경)
(문제 제기)
(제안)
본 연구에서는 several key designs in the building blocks (multi-head attention and feed-forward network)을 만듦으로써,
an efficeint Transformer model을 제안한다.
이 model은 long-range pixel interactions을 capture하면서도, 여전히 large images에 applicable하도록 만들었다.
제안된 model은 Resotration Transformer (Restormer)로 이름지으며, 다음과 같은 image restoration task에서 SOTA를 달성했다:
(배경)
(문제, motivation)
(제안)
이 논문에서는 large images에 applicable하면서도 global connectiviy를 modeling할 수 있는 efficient Transformer for image restoration을 제안한다.
구체적으로, 기존의 multi-head Self-Attention (SA) 대신 linear complexity를 갖는 multi-Dconv head 'transposed' attention (MDTA) block(Sec. 3.1.)을 도입한다.
MDTA는 spatial dimension이 아닌 feature dimension에서 Self-Attention을 수행한다.
즉, pairwise pixel interactions을 직접 modeling하는 대신, input features (=key and query projected)로부터 attention map을 얻기 위해 cross-covariance across feature channels을 생성한다.
이는 1x1 von and channel-wise aggregation of local context using efficient depth-wise convolutions을 활용한 pixel-wise aggregation of cross-channel context를 통해 달성된다.
이 strategy는 two key advantages를 제공한다.
A feed-forward network (FN)은 Transformer의 또 다른 핵심 구성 요소이다.
이는 two fc layers with a non-linearity in between으로 구성된다.
본 논문에서는 the first linear transformation layer in the regular FN을 a gating mechanism으로 reformulate하여 information flow를 개선한다.
this gating layer는 the element-wise product of two linear projection layers, one of which is activated with the GELU non-linearity로 구성된다.
Our gated-Dconv FN (GDFN)도 MDTA와 마찬가지로 local content mixing 방식을 적용하여, spatial context에 대한 균형 있는 강조를 실현한다.
Gating mechanism은 유용하지 않은 특성을 억제하고, 중요한 특성만 다음 layer로 전달하여, more refined image attributes과 high-quality outputs으로 이어지게 한다.
위의 architectural novelties 외에도, 이 논문에서는 Restormer의 progressive learning의 effectiveness를 입증한다. (Sec. 3.3)
early epochs에는 small patches와 large batches로 학습하고,
점차 large image patches and small batches로 전환한다.
이러한 training strategy는 model이 large images로부터 context를 학습하는 데 효과적이며, test quality performance improvements로 이어진다.
The main contributions of this work are summarized below:
However, the computational complexity of SA in Transformers can increase quadratically with the number of image patches, therby prohibiting its application to high-resolution images.
One potential remedy is to apply self-attention within local image regions [44, 80] using the Swin Transformer design [44].
However, this design choice restricts the context aggregation within local neighbourhood,
defying the main motivation of using self-attention over convolutions,
thus not ideally suited for image-restoration tasks.
... skip
그래서 우리는 a Transformer model that can learn long-range dependencies while remaining computationally efficient.
a degraded image 가 주어졌을 때,
Restormer는 먼저 convolution을 활용하여 low-level feature embeddings 를 생성한다.
그 다음, 이 shallow features 는 4-level symmetric encoder-decoder에 들어가고 deep features 로 transformed된다.
Each level of encoder-decoder는 multiple Transformer blocks을 포함하고, #blocks은 top에서 bottom으로 갈수록 efficiency를 유지하기 위해 증가된다.
high-resolution input으로부터 시작하여, encoder는 spatial size를 줄이는 동시에, channel capacity를 확장한다.
decoder는 low-resolution latent features 을 input으로 받아 high-resolution representations을 점진적으로 recover한다.
feature downsampling and upsampling을 위해 각각 pixel-unshuffle and pixel-shuffle operations 연산을 사용한다.
the recovery process를 보조하기 위해, encoder features는 skip connections을 통해 decoder feature와 연결된다.
이 연결된 feature는 1x1 conv를 통해 #channels을 절반으로 줄이며, 이는 the top level을 제외한 모든 level에서 적용된디ㅏ.
level-1에서는, Transformer block이 encoder의 low-level image features와 decoder의 high-level features를 aggregate하도록 하여,
restored images로부터 fine structural and textural details을 보존하는 데 도움을 준다.
그 후, deep feature 는 high spatial resolution에서 작동하는 refinement stage에서 추추가적으로 풍부하게 처리된다.
이러한 design choices는 sec. 4에서 확인할 수 있듯이 성능 향상에 기여한다.
마지막으로, refined featrues에 residual image 을 생성하고, 이를 원래의 degraded image에 더하여 restored image: 을 얻는다.
다음으로 우리는 Transformer block에 대해 설명한다.
skip