Resolution-robust Large Mask Inpainting with Fourier Convolutions

sp·2022년 6월 9일
1

Project Page Arxiv
WACV 2022

Introduction

  • Image inpainting에서 딥러닝 기반 방법들이 성능을 획기적으로 올리게 됨

  • 기존의 방법들의 경우 보통 two-stage 기반 방법을 사용하는데, 중간 결과로 smoothed image로 학습되고, 최종으로 실제같은 영상이 나옴

  • 큰 마스크를 가진 영상에서는 전체적인 영상을 이해해야 하는데, 이를 위해서 large receptive field가 필요함

  • 일반적인 컨볼루션 기반 방법들로는 효과적이면서 large receptive field를 적용하기 힘듦

  • 이를 해결하기 위해 fast Fourier convolutions (FFCs)를 도입함

  • 그 외에 perceptual loss을 제시해서 high receptive field를 커버하고, 마스크에 따른 성능 연구를 수행함

Method

Global context within early layers

  • 이 논문에서 가장 중요한 포인트는 FFC라고 할 수 있는데, 일반적인 인코더-디코더 기반 방법들보다 receptive field를 넓게 가져갈 수 있음

  • 여기서 진짜 Fourier transform을 적용함

  • 여기서 WW가 반으로 감소하는데 입력 값들이 모두 실수이므로, Real FFT가 됨. 그래서 half spectrum으로도 표현할 수 있음 (mirror되는 성질)

  • 물론 FFT를 하면 복소수 형식이 되므로, 실수와 복소수 부분을 채널 형식으로 붙여서 사용하게 됨

  • 주파수 상에서는 공간 컨볼루션을 적용하지 않고 채널만 건드리고, BN, ReLU를 통과한 뒤 다시 Inverse Real FFT로 이미지 형태로 되돌림

  • 그 뒤에 Local 부분 적용한 것들을 합쳐서 블록의 출력으로 내보내게 됨

  • FFC의 장점으로는 완전히 미분 가능하고 일반적인 컨볼루션 레이어와 같이 사용이 가능함. 그러면서도 큰 receptive field를 가질 수 있어서 효율적임

Loss functions

  • Naive한 supervised loss는 ground truth와 똑같이 내도록 하는데, 큰 영역에서는 충분한 정보를 가지고 있지 않아 blur될 수 있음

  • 그에 반해 perceptual loss는 pre-trained network ϕ()\phi(\cdot)로 추출된 feature를 비교하기 때문에 더 나은 결과를 기대할 수 있음. 이를 high receptive field perceptual loss (HRF PL)로 정의함. 이는 Fourier, Dilated convolution으로 구현됨

  • GAN에서 사용하는 loss로 진짜같이 보이게 하는 Adversial loss LAdvL_{Adv}또한 사용함. mask를 칠한 이미지를 fake, 일반 이미지를 real로 비교

  • 그 외 gradient penalty R1R_1과 discrimator-based perceptual loss LDiscPLL_{DiscPL} 사용

Generation of masks during training

  • 마스크의 생성 방법에 따라 성능에 영향을 줄 수 있음

  • aggressive large mask 생성 방법을 차용함. 이는 굵은 선과 사각형으로 이루어진 polygonal chains을 사용함

  • 이 방식을 사용했을 때 좁은 마스크를 사용할 때보다 성능이 증가함. 실험에서는 마스크가 전체 면적의 50% 이상을 차지하지 않게 함

Experiments

Comparisons

  • 제안한 LAMA Fourier 모델이 다른 모델과 비교해 perceptional 성능이 좋은 것을 확인함

  • Fourier/Dilated/Regular 비교, Deep model과도 비교했을 때에도 더 좋은 것 확인

Big Lama

  • 매우 큰 데이터셋에 더 깊게 쌓은 모델을 학습했을 때, 더 좋은 성능을 냄을 확인함. 물론 regular보다 fourier convolution을 사용했을 때 더 좋은 성능을 보임

0개의 댓글