[Paper Review📚] <MetaIQA: Deep Meta-learning for No-Reference Image Quality Assessment>

혜빈·2021년 2월 14일

CVPR2020 Deep Learning IQA Image Quality Assessment meta learning paper-review

Hyebbb Paper Review

목록 보기

2/3

CVPR 2020에 accept된 < MetaIQA: Deep Meta-learning for No-Reference Image Quality Assessment >를 읽고 정리한 내용이다.

1. Introduction

Image의 quality를 평가하는 방식에 대해서 데이터의 reference가 없는 경우가 많기 때문에 IQA 방식 중에서는 NR(No-Reference) 방식이 가장 많이 연구되고 있다고 할 수 있다.

NR 방식의 IQA 같은 경우에는 왜곡된 이미지의 원본 이미지를 참조하지 않고 quality을 평가하는데, 처음 이와 관련한 연구들은 대부분 특정한 distortion type에 focus를 맞추는 경향이 있었다.

그래서 이후 general한 목적에 맞는 NR-IQA의 연구가 활발해졌고, 최근 들어서는 dcnn(deep convolutional neural networks)들로 높은 성능을 보이는 NR-IQA가 연구되었다.

하지만 그렇게 연구된 dcnn기반의 metric이 좋은 성능을 낼 수 있는 이유는 굉장히 방대한 parameter들이 포함되었기 때문이었고, 이 때문에 굉장히 많은 양의, 사람에 의해 annotation 되어 있는 데이터들이 필요했다는 한계점이 존재했다. annotation 되어 있는 IQA database 양의 한계로 overfitting의 문제점이 발생하였고, overfitting을 완화시키기 위해 metric들이 대부분 big training data(ex. ImageNet)를 사용할 수 있는 pre-trained network에 의존을 하게 되었다. 하지만 이 경우에도 그렇게 만족스러운 결과를 가져오지는 못했다고 한다.

이에 대해 이 논문에서는, pretrained된 모델이 IQA task를 위해 디자인된건 아니기 때문에 새로운 distortion type에 대해서는 적응하지 못한다는 점에서 앞서 말한 만족스럽지 못했던 결과는 당연한 결과라고 지적한다.

그래서 이 논문에서는 이를 해결하여 다양한 distortion에서도 잘 판단을 내리는 Image Quality Metric을 제안하는데,


deep meta-learning에 기반한 NR-IQA metric

Brighten, White noise, Motion blur 등의 image quality에 대한 사전 지식들을 얻어서 이를 이용하여 모르는 distortion을 가지는 image의 quality에 대한 평가를 하는 사람의 평가방식을 motivation 삼아 deep meta-learning에 기반한 NR-IQA metric을 제안한다.

2. Proposed Method

전체적인 framework는 크게 두 부분으로 나눠져 있다.

1. meta learning을 사용해서 다양한 distortion에 특정된 NR-IQA task들의 전반적인 규칙들을 찾고,
1. 학습된 사전 지식모델을 활용하여 unknown distortion에 대한 NR-IQA task에 대해서 fine-tuning을 하는 방식이다.

즉 meta learning 중 few shot learning이 이루어지고 있으며, "사전 지식을 공유함으로써" 적은 수의 example만 가지고 unknown distortion에 대한 NR-IQA model이 잘 학습할 수 있도록 한 것이다.

Meta-training for quality prior model

첫 부분부터 차근차근 알아보자.

이 모델에서는 meta learning 접근 방식중 optimization에 기반한 방식이 도입되었다.

먼저 많은 NR-IQA task들로부터 quality 사전 지식들의 모델 파라미터들을 학습한다. 이 때 two level gradient descent method를 사용한다. 먼저 각각의 NR-IAQ task에 대한 training data를 support set과 query set으로 분리하고, 이 두 level로 이루어진 gradient optimization을 bi-level gradient optimization이라고 한다고 한다.

각각의 set의 역할은 다음과 같다.

D_{meta}^{p(\tau) } = [D_{s}^{\tau_{n}},D_{q}^{\tau_{n}}]_{n=1}^{N}

support set: 모델 파라미터들의 gradient를 계산 -> 파라미터 업데이트
query set: 업데이트된 모델이 효과적으로 행해지는지를 확인하는 역할

이 "bi-level gradient optimization에 기반한 meta learning 방법"이 quality score을 뽑아내는 regression network에 적용되는 것이다.

Meta-learning with bi-level gradient optimization

이를 좀 더 자세히 순서대로 살펴보자.

먼저 support set, query set을 서로 겹치지 않도록 총 N개로 구성된 meta training set에 대해서 k task들을 mini-batch로 랜덤 샘플링한다.
mini-batch 속의 각각의 Support set에 대해 예측값과 ground truth인 quality score의 차이로 loss를 계산하고
$\widehat{y} = f_{\theta}(x;\theta)$ $L = \left \| f_{\theta}(x;\theta) - y \right \|_{2}^{2}$
support set에 대해서 Adam optimizer을 사용해서 loss를 최소화하는 방향으로 optimize한 ${\theta}'$ 값을 계산한다.
다음 query set에 대해서 동일하게 Adam optimizer을 사용해서 loss를 최소화하는 방향으로 optimize한 $\theta$ 값을 계산한다.

=> k task에 대한 mini-batch에 대한 $\theta_{i}$ 값이 계산되어 나오고 그 최종적인 $\theta$ 값이 update되는 방식이다.

이를 계속해서 minibatch로 sampling하면, k개의 다양한 task에 대해 image distortion을 공유하는 quality prior model이 얻어지게 된다!

Fine-tuning for unknown distortions

다음으로 quality prior model이 학습되게 되면, 이 모델은 unknwon distortion에 대한 NR-IQA task에 fine-tuning을 위한 사전 지식으로 사용된다. m개의 annotated quality score을 가지는 적은 양의 training image가 주어지면,

이러한 loss function을 사용해서 먼저 loss를 구하고

L = \frac{1}{M}\sum_{i=1}^{M}\left \| \widehat{y}_{i} - y_{i} \right \|_{2}^{2}

사전의 prior model을 Adam optimizer 이용하여 optimize한다.(즉, fine-tuning한다!).

fine tuning까지 거친 quality model은 unknown distortion를 가진 input image x(~~query image라고 한다~~)의 quality socre도 충분히 얻을 수 있는 모델이 된다.

\widehat{y} = f_{\theta_{te}}(x;\theta_{te})

(이 때 이 Finetuning 과정에서는, 사전의 prior model을 가져와 fine-tuning하기 때문에 추가적인 parameter들 학습이 필요 없기 때문에 학습 효율성이 크게 향상되고, generalization ability 역시 향상된다!)

Algorithm Summary

알고리즘으로 다시 보면, 크게 두 단계로 이루어져 있고, 1) 먼저 prior model 학습을 위한 meta-training이 이루어진 다음, 2) unknown distortion을 가진 image의 NR-IQA task를 위한 fine-tuning이 이루어져 모델이 학습되고, 결국 query image x를 이 학습한 quality model에 넣었을 때 quality score을 예측해서 뽑아낼 수 있게 되는 것을 확인할 수 있다.

3. Experiment

이 model은 backbone model로 ResNet 18 layer network를 사용하였고, 데이터는 224*224 pixel patch로 random crop하여 training하였다.

인공적으로 왜곡을 시킨 IQA database에 대해서랑 실제로 왜곡이 일어난 이미지 데이터베이스에 대해 quality score을 뽑아내서 그 데이터 베이스에 함께 annotation 되어 있는 score(사람이 1에서 100사이로 준 quality score)와의 피어슨 상관계수&스피어맨 상관계수를 계산하여 이 모델을 평가하였다.

결과적으로, 기존의 sota model을 뛰어 넘는 아주 좋은 성능이 나왔다고 한다!

4. Result

Gradient map에 대해서 Visualization을 한 결과도 보면, blur가 심한 부분(distortion이 강한 부분)의 distortion 위치들을 정확하게 잡아내고 있는걸 확인할 수 있다.

논문 정리를 마치며, 다시 짚어보면

1. meta learning을 사용하여 사전 지식모델(prior model)을 학습하고
1. 학습된 사전 지식모델을 활용하여 unknown distortion에 대한 NR-IQA task에 대해 fine-tuning하는

총 두 단계로 구성된 MetaIQA을 이 논문에서는 제시하였다.

meta learning 방식을 IQA task에 끌고 왔고, 좋은 성능을 이끌었다는 점이 인상깊었다. meta learning에 대해 정확히 많이 알고 있지 못해 논문에 대한 이해가 아쉬웠던 것 같아 meta learning에 대한 제대로 된 공부와 글도 남겨봐야겠다!

끝`(>﹏<)′

혜빈

(❁´◡`❁)

이전 포스트

[Paper Review📚] <Blindly Assess Image Quality in the Wild Guided by A Self-Adaptive Hyper Network>

다음 포스트