Resolution-robust Large Mask Inpainting with Fourier Convolutions

sp·2022년 6월 9일

Introduction

Image inpainting에서 딥러닝 기반 방법들이 성능을 획기적으로 올리게 됨
기존의 방법들의 경우 보통 two-stage 기반 방법을 사용하는데, 중간 결과로 smoothed image로 학습되고, 최종으로 실제같은 영상이 나옴
큰 마스크를 가진 영상에서는 전체적인 영상을 이해해야 하는데, 이를 위해서 large receptive field가 필요함
일반적인 컨볼루션 기반 방법들로는 효과적이면서 large receptive field를 적용하기 힘듦
이를 해결하기 위해 fast Fourier convolutions (FFCs)를 도입함
그 외에 perceptual loss을 제시해서 high receptive field를 커버하고, 마스크에 따른 성능 연구를 수행함

이 논문에서 가장 중요한 포인트는 FFC라고 할 수 있는데, 일반적인 인코더-디코더 기반 방법들보다 receptive field를 넓게 가져갈 수 있음
여기서 진짜 Fourier transform을 적용함

여기서 $W$ 가 반으로 감소하는데 입력 값들이 모두 실수이므로, Real FFT가 됨. 그래서 half spectrum으로도 표현할 수 있음 (mirror되는 성질)
물론 FFT를 하면 복소수 형식이 되므로, 실수와 복소수 부분을 채널 형식으로 붙여서 사용하게 됨

주파수 상에서는 공간 컨볼루션을 적용하지 않고 채널만 건드리고, BN, ReLU를 통과한 뒤 다시 Inverse Real FFT로 이미지 형태로 되돌림
그 뒤에 Local 부분 적용한 것들을 합쳐서 블록의 출력으로 내보내게 됨
FFC의 장점으로는 완전히 미분 가능하고 일반적인 컨볼루션 레이어와 같이 사용이 가능함. 그러면서도 큰 receptive field를 가질 수 있어서 효율적임

Naive한 supervised loss는 ground truth와 똑같이 내도록 하는데, 큰 영역에서는 충분한 정보를 가지고 있지 않아 blur될 수 있음
그에 반해 perceptual loss는 pre-trained network $\phi(\cdot)$ 로 추출된 feature를 비교하기 때문에 더 나은 결과를 기대할 수 있음. 이를 high receptive field perceptual loss (HRF PL)로 정의함. 이는 Fourier, Dilated convolution으로 구현됨
GAN에서 사용하는 loss로 진짜같이 보이게 하는 Adversial loss $L_{Adv}$ 또한 사용함. mask를 칠한 이미지를 fake, 일반 이미지를 real로 비교
그 외 gradient penalty $R_1$ 과 discrimator-based perceptual loss $L_{DiscPL}$ 사용