본 논문은 비디오 압축을 학습하는 것에 대한 논문이다. 이전의 하이브리드 코딩 접근법은 공간 및 시간 중복을 줄이기 위해 픽셀 공간 연산에 의존하며, 이는 부정확한 모션 추정이나 덜 효과적인 모션 보정이 발생할 수 있다. 본 논문은 피처 공간에서 모든 주요 작업(모션 추정, 모션 압축, 모션 보정 및 잔여 압축 등)을 수행하여 Feature-space Video Coding network(FVC)를 제안한다. 특히, 제안된 변형 가능한 보정 모듈(deformable compensation)에서는 먼저 feature 공간에서 움직임 추정을 적용하며, auto encoder style-network를 사용하여 압축되는 모션 정보(offset maps)를 생성한다. 그런 다음 변형 가능한 컨볼루션(deformable convolution)을 사용하여 움직인 보정을 하고, 예측된 피쳐들을 생성한다. 그 다음 현재 프레임에서 나온 피쳐와 변형 보정 모듈로부터 나온 예측된 피쳐들 사이의 잔여 피쳐를 압축한다. 더 나은 프레임 재구성을 위해 이전에 구성된 여러 프레임의 기준 피쳐는 멀티 프레임 피쳐 퓨젼 모듈의 non-local attention 메커니즘을 사용하여 퓨전된다.
현재 대부분의 작업은 중복성을 줄이기 위해 픽셀 수준의 작업(모션 추정 또는 모션 보정)에만 의존한다. 예를 들어, 시간적 중복을 줄이기 위해 픽셀 레벨에서 optical flow 추정과 움직임 보정이 사용된다. 픽셀 수준의 잔차는 auto encoder style network를 사용하여 추가로 압축된다. 그러나 이 픽셀 레벨 패러다임에는 세 가지 한계가 존재한다.
구조
- F=피쳐 / O=offset Map(원래 픽셀을 다음 픽셀로 얼마나 이동하는지에 대한 지표) / R=잔여 피쳐
본 연구에서는, 기존의 비디오 코덱에서처럼 픽셀 수준의 연산을 채택하기 위해 기존의 작업을 따르는 대신, 피쳐 공간에서 공간-시간 중복성을 줄임으로써 새로운 FVC를 제안한다. 구체적으로, 먼저 두 개의 연속 프레임에서 추출된 representation들을 기반으로 모션 정보(deformable convolution에 있는 컨볼루젼 커널에서 얻어지는 offset map)을 추정한다. 그런 다음 auto encoder style 네트워크를 사용하여 오프셋 맵을 압축하고 재구성된 오프셋 맵을 이후의 deformable 컨볼루션 작업에 사용하여 보다 정확한 모션 보정을 위해 예측된 피쳐를 생성한다. 그 후 또 다른 auto encoder style 네트워크를 채택하여 원래 입력 피쳐와 예측 피쳐 사이의 잔여 피쳐를 압축한다. 마지막으로, 더 나은 프레임 재구성을 위해 여러 이전 프레임의 기준 피쳐 집합을 결합하기 위해 멀티 프레임 피쳐 퓨젼 모듈을 제안한다.
- deformable convoultion
기존의 convolution 연산은 고정된 filter를 가지고 있지만, 위의 그림과 같이 이 방법은 고정되지 않고 다양한 사이즈의 filter를 가진다.
Rate Distortion을 최소화 하는 방향으로 학습한다. Ro와 Rr은 offset map을 인코딩하는데에 사용되는 비트 수와 잔여 피쳐 맵 Rt를 나타낸다. d(Xt,X^t)는 입력 프레임 Xt와 재구성된 프레임 X^t 사이의 차이를 나타내며, 여기서 d()는 평균 제곱 오차 또는 MS-SSIM을 나타낸다. 감마는 rate distortion의 trade-off를 제어하기 위해 사용되는 하이퍼 파라미터이다.
7프레임 정도의 영상 사용