최근 percptual loss 기반 super resolution 연구들은 성능 향상을 이뤄왔다. 이와 같은 objective function들은 거의 사진과 유사한 결과를 생성한다. 하지만 이는 이미지 내의 semantic information들을 고려하지 않고, 동일한 방식으로 전체 이미지의 reconstruction error를 계산하기 때문에 그 성능이 제한된다. 본 논문에서는 보다 객관적인 방법으로 perceptual loss로부터 benefit을 얻을 수 있는 새로운 방법을 제안하고 있다. 저자는 다양한 semantic level에서 image에 패널티를 주는 targeted objective function으로 deep network-based decoder를 최적화 시켰다고 한다. 특히, 이 방법은 segmentation 된 OBB(Object, Background, Boundary) label 정보를 활용하여 경계에 대한 적절한 perceptual loss를 추정하고, 배경에 대한 texture 유사성을 고려하게 해준다고 말한다.
저자는 제안한 방식은 보다 사실적인 texture와 더 sharpe한 edge를 제공하며 SOTA를 능가한다고 말한다.
SISR(Single Image Super Resoultion)은 LR 이미지로부터 HR 이미지를 복구해내는 것이다. CNN의 도입으로 높은 성능 향상을 보여온 SISR분야는 per-pixel loss와 MSE를 사용하는 대신 perceptual loss를 사용하면서 더욱 발전했다. 이를 사용함으로써 MSE 기반의 loss function에서 보여온 texture가 블러링되는 현상을 해결했다. 또한, adversarial loss와 함께 학습하여 이미지 품질 측면에서 거의 photorealistic한 reconstruction을 가능하게 하였다.
기존 loss function은 perceptual similarity를 사용하는 아이디어로부터 이점을 얻는다. 사전 훈련된 classifier 네트워크를 사용하여 HR과 SR 이미지를 특징 공간에 맵핑하고, deep feature domain에서 GT와 SR을 비교하여 모델을 최적화한다. 이러한 방법이 SISR에 성능 향상을 보이지만, semantic information을 고려하지 않고 적용할 때 그 성능은 제한적이다.
논문에서는 먼저 perceptual loss를 계산하는데 사용되는 pretrained CNN과 이를 이용해 네트워크를 어떻게 최적화시키는지 설명하고 있다. pretrained CNN의 초기 컨볼루션 레이어에서 각 뉴런은 출력에 영향을 미치는 입력의 크기와 모양을 가진 receptive field를 가지고 있다. SOTA CNN 접근 방식에서 일반적으로 사용되는 작은 커널은 그만큼 작은 receptive field를 갖게 된다. 이를 이용하면 낮은 레벨의 공간 정보만을 추출할 수 있다. pretrained CNN의 깊은 단계에서는 각각의 뉴런들의 receptive field가 커지는데, 이를 이용하면 global semantic meanings, abstract object information을 학습할 수 있다.
Perceptual function에 대해서는, 우선 SISR과 비슷한 task에서의 SOTA CNN들은 각각의 쓰임에 맞는 다른 level에서의 feature를 사용한다.
결국 전체 이미지에 대해 동일한 perceptual loss를 적용시키므로, edge, object, foreground, background에 관계없이 동일한 perceptual loss가 사용되었다는 의미이다. 이는, 나무와 같이 무작위의 텍스쳐 내에서의 edge detail들에 대한 loss는 불필요한 penalty를 고려한 것이 될 것이며, 따라서 필요성이 덜한 정보들을 학습하게 되는 것이다. 다른 한편으로, 영상 내의 edge부근에 대해 mid-level feature를 사용한 경우 날카로운 edge를 만들어내기는 커녕, "noisy" loss만 커질 것이다
이런 문제들을 다루기 위해, 저자는 perceptual loss를 더욱 objective 한 방법(각각 적합한 loss를 취하는 방법인듯)으로 사용하는 법을 제시한다. Figure 1은 제안하는 방법에 대한 개요를 나타낸다.
pixel-wise segmentation annotation을 저자가 제안하는 OBB label 기법에 활용하며, 이를 통해 원하는 perceptual feature를 사용하여 (edge 부근의 loss와 texture부근의 loss 등) 적절한 loss를 최소화시키는 방법으로 모델을 학습시킬 수 있다.
현재 CNN-based SISR은 end-to-end deep network 구조가 사용되고 있다. recursive한 형태를 띠며 구조가 깊을수록 SISR 성능을 높인다.
Vareiety of end-to-end deep network architectures:
모델 아키텍쳐보다 objective function에 집중.