논문 제목
Joint Autoregressive and Hierarchical Priors for Learned Image Compression (NIPS 2018)
URL: https://arxiv.org/abs/1809.02736
인용수 : 1231회 (24.09.23 기준)
해당 논문은 Learned Image Compression에서 대부분 사용하는 구조인 Context Model을 제안했다. 현재 나온 SOTA 모델에 사용되는 다양한 Context Model을 이해하기 전 왜 & 어떻게 사용되는지 알아야하기 때문에 이 논문은 연구를 위해 반드시 읽어야하는 논문이다.
최적화를 위한 수식은 다음과 같다. 크게 Rate (Bit-Rate)와 Distortion(이미지 정량지표 : MSE,MS-SSIM Loss)로 구성된다.
이 논문에서 제안된 모델은 두 가지 Network로 구성된다. 첫 번째 네트워크는 오토인코더로 이미지를 잠재표현으로 변환 후 이를 양자화한다. 두 번째 네트워크는 확률 모델을 학습하여 양자화된 잠재표현을 엔트로피 코딩에 사용할 수 있도록 한다.
Context Model은 Autoregressive model을 기반으로하여, 이미 복원된 잠재 변수들로부터 나머지 잠재 변수의 값을 예측한다. 이와 결합된 Hyperprior(Hyper Encoder 및 Hyper Decoder)는 컨텍스트 기반 예측을 보완하는 정보를 학습함.
두 모델 (Context & Hyperprior)의 데이터는 Entropy Parameters Network에 의해 결합되어, Conditional Gaussian entropy model의 mean과 scale parameters를 생성한다.
양자화된 잠재표현 는 Hyperprior 와 이미 복원된 잠재표현 에 따라 Conditional Gaussian Distribution으로 모델링된다.
수식은 아래와 같다.
여기서 와 는 각각 Hyperprior Decoder, Context Model, Entropy Parameter Network에서 예측된다.
논문에서 사용한 손실함수는 다음과 같다.
각 층의 디테일을 살펴보면 네트워크 전반적으로 CNN을 사용했고, 비선형성을 위해 활성화 함수는 GDN/IGDN, Leaky ReLU를 사용했다. (Hyperprior논문에서는 ReLU를 사용했었다.)
더 개선된 활성화 함수를 사용한 특징이 있었다.
논문에서 Ablation Study를 통해 AE+ Hyperprior, AE+ Context Model, AE+ Hyperprior + Context Model 조합으로 실험을 진행하였고, 두 네트워크를 모두 사용한 모델이 성능이 가장 좋게 나타났다.
또한 Hyperprior 논문에서는 BPG보다는 성능이 떨어졌지만, 본 논문에서는 딥러닝 방법론이 전 통적인 압축방법인 BPG보다 정량적으로 높은 수치를 보였다.
Autoregressive Model과 Hyperprior는 상호보완적(complementary)이다.
Hyperprior 관점에서 엔트로피 모델을 개선하려면 더 많은 부가 정보(side information)가 필요함. 부가 정보는 총 압축 파일 크기를 증가시켜 이점이 제한된다.
반면 Autoregressive Model를 도입하면 예측이 casual context, 즉 이미 decoding된 정보를 기반으로 하기 때문에 속도 저하가 발생하지 않는다.Autoregressive Model 관점에서 볼 때 casual context에서만 제거할 수 없는 불확실성이 어느정도 존재할 것으로 예상된다.
그러나 Hyperprior는 압축된 비트스트림의 일부이며 디코더가 완전히 알고 있기 때문에 “look into the future”(미래를 내다본다)라고 할 수 있다. 따라서 Hyperprior는 Context에서 정확하게 예측할 수 있는 정보는 피하면서 Autoregressive Model의 불확실성을 줄일 수 있다.
실용적인 관점에서는 Autoregressive Model은 직렬적이라 병렬화를 통해 속도를 높일 수 없어 hierarchical model보다 바람직하지 않아 개선 연구 필요.
두 모델이 상호보완적으로 작동하여 이미지 압축 연구에서 복잡한 이미지 데이터의 잠재 표현을 더 정교하게 모델링할 수 있게되었다.