Frame 단위로 별개의 SR을 적용하는 것은 temporal incoherence가 망가지는 경향이 있음. VSR은 inter-frame information을 어떻게 leverage하여 motion consistency를 유지하는가가 핵심.
VSR 모델은 크게 고전적 방법과 딥러닝 기반 방법으로 나뉨.
고전적 방법: Affine model로 motion estimation 수행. Non-local mean 및 3D steering kernel regression을 적용하거나 Bayesian approach로 접근하여 blur kernel을 추정하지만 한계가 명확함.
딥러닝 기반 방법: CNN, GAN, RNN 기반으로 LR & HR video sequences를 활용해 inter-frame alignment 및 feature extraction 등을 학습함. 대부분 아래와 같이 alignment module - feature extraction and fusion module - reconstruction module로 구성됨.
cf. SISR 모델: SRCNN(2014, 이를 기반으로 2016년 VSRnet 발표), FSRCNN(2016), VDSR(2016), ESPCN(2016), RDN(2018), RCAN(2018), ZSSR(2018), SRGAN(2017)
Inter-frame information의 utilization 방식에 있어, 영상의 각 프레임이 explicit하게 align되는가를 기준으로 1) with alignment 모델과 2) without alignment 모델로 분류 가능.
2015-2017년에는 frame alignment가 대부분 활용되었으나, 2018년부터는 FFCVSR, DUF, RISTN, PLNL 등을 비롯해 alignment를 포함하지 않는 모델이 다수 발표되었음. 또한 과거엔 특정 범위 내의 프레임에 한해 sliding-window를 활용하여 VSR에 적용했다면, 최근엔 receptive field를 늘려 모든 프레임 정보를 활용함.
: 프레임 간의 motion 정보를 추출하는 motion estimation과, 이를 바탕으로 한 프레임을 다른 프레임과 align하도록 warping(transformation)하는 motion compensation으로 구성. 대부분 optical flow method 사용.
: 이웃한 프레임 사이에서 시간축 상의 correlation과 variation을 기반으로 motion 계산.
MEMC technique은 인접한 프레임들을 align하는데 사용되며, 가장 일반적. 단, 조명 조건이 급격히 바뀌거나 큰 움직임을 포함하면 정확도가 떨어지게 됨.
: 기하학적 변형에 대해 학습하기 어려운 기존 CNN의 한계점 보안. Target feature와 neighboring feature를 통해 구한 offset을 기존의 convolution kernel에 적용하여 크기와 모양이 변화하는 deformable convolution kernel을 얻어냄.
초기의 SR 알고리즘이 전통적인 MEMC 방법론을 사용했다면, 후반부의 모델은 MEMC의 sub-module을 활용하는 형태로 발전함. 하지만 이는 조명 변화와 큰 움직임이 포함될 경우 성능이 하락하여 biRNN을 backbone으로 적용하며 문제를 완화하려 노력함. 이후, 이들에 둔감한 deformable convolution (DConv)이 제시되어 많이 활용되었으나 이 역시 연산량이 많고, 학습이 잘 수렴되지 않는다는 단점이 존재함.
VSRResFeatGAN (2019): 인접한 프레임을 conv layer로 직접 통과시켜 SR 진행.
FFCVSR (2019): Local network와 context network로 구성되어 RNN의 형태로 SR 진행.
2D-convolution method는 motion estimation을 적용하여 warping을 하지 않고, 인접 프레임 자체로부터 spatial correlation을 직접 얻어냄.
3D convolution method는 별도의 MEMS 없이 spatio-temporal correlation을 계산할 수 있으나, 대부분 높은 연산량을 요하며 real-time을 불가능케 함.
RCNN-based 방법론은 long-term dependency를 보다 가벼운 구조로 학습할 수 있다는 장점이 있으나, 학습이 어렵고 gradient vanishing problem을 겪는다는 단점 존재.
: 아래 관계식과 같이 feature map 상의 모든 지점에 대한 attention mechanism 사용.
Non-local method는 receptive field를 영상 전체로 확장하여 spatio-temporal 정보에 대한 dependency를 효율적으로 형성하나, 연산량이 많음.
최근 Deep-learning based VSR은 다음과 같은 방법을 사용.
- MEMC 또는 deformable convolution으로 인접한 frame들을 서로 align한 뒤 SR 진행.
- 별도의 explicit alignment 없이, 2D/3D conv layer 또는 RCNN, attention mechanism** 등으로 frame들로부터 spatio-temporal correlation을 얻어낸 후 SR에 leverage.