Deep Photo Enhancer: Unpaired Learning for Image Enhancement from Photographs with GANs

경도현·2021년 6월 10일
0

논문 리뷰

목록 보기
1/6

이 논문은 이미지 향상을 위한 Unpaired learning 학습 방법을 제안한 논문입니다.

논문

https://openaccess.thecvf.com/content_cvpr_2018/papers_backup/Chen_Deep_Photo_Enhancer_CVPR_2018_paper.pdf

Github

https://github.com/nothinglo/Deep-Photo-Enhancer

1. Introduction

많은 사람들이 소중한 추억을 기록하기 위해 사진을 찍고 싶어하지만 그들이 찍은 사진에 실망 할 수 있습니다 사람들은 소프트웨어를 사용하여 사진을 향상시키는 데 관심을 갖게 되었습니다.

인간의 지각이 복잡하고 주관적이기 때문에 향상된 것을 명확하게 정의하는 것은 쉽지 않습니다. 이미지 향상을 위한 도구가 있지만 결과의 품질은 사용자의 기술과 판단에 크게 좌우됩니다. 또한, 반자동으로 생성되는 결과는 매개 변수에 매우 민감할 수 있습니다. 그리고 GAN으로 학습하는 것은 불안정성이 높습니다.

이러한 문제를 해결하기 위해 이 논문은 U-Net을 Global feature로 보강하고 CycleGAN과 유사한 구조를 가진 양발향 GAN을 제안합니다. 그리고 WassersteinGAN (WGAN)대한 적응형 가중치 체계(adaptive weighting scheme)를 제안하며, 동일한 유형의 Generator에 대해 배치 정규화 레이어를 다르게 사용합니다.

contribution

1) 이 논문은 사용자가 원하는 특성을 가진 주어진 사진 세트에서 이미지 향상을 학습하는 Deep Photo Enhancer를 제시합니다.
2) Global feature를 사용하여 이미지 처리를 위한 U-Net 을 강화하고 적응 가중치 체계를 통해 WGAN의 안정성을 개선했습니다.
3) 또한, 개별적인 배치 정규화 레이어를 사용하여 양방향 GAN을 개선합니다.

(생략)

3. The Proposed Method


CycleGAN은 도메인 X에서 도메인 Y로 변경하고 다시 생성된 Y를 원래 도메인 X로 변경함으로써 더욱 robust하게 만드는 특징이 있습니다. 여기서는 정답 도메인 Y를 가지고 한번 더 CycleGAN을 적용하여 GAN을 더욱 더 robust하게 만듭니다.
정리하자면, 다음과 같이 CycleGAN을 한번만 적용하는 것이 아니라 2번 적용하여 품질을 더 높입니다. 여기서 Gx'와 Gx는 같은 구조를 가지지만, 배치 정규화는 각각 다릅니다. Gy와 Gy'도 마찬가지 입니다.



Global feature는 장면 범주, 피사체 유형 또는 전체 조명 조건과 같은 high-level feature의 정보를 나타낼 수 있습니다. 하지만 기본적인 U-Net은 Global feature를 포함하지 않기 때문에 이미지 향상에서 그다지 잘 수행되지 않습니다. 따라서, Generator에 Global Feature(노란색 부분)를 추가하여 U-Net 구조를 보강합니다.



여기서는 Loss function을 적용할 때 GAN, LSGAN, DRGAN보다 WGAN-GP을 적용하는것이 더 바람직하다고 설명하고 있습니다.
WGAN은 훈련 목표에 대한 Lipschitz 제약에 의존합니다. 너무 큰 값으로 발산하지 않게끔 기울기를 1로 제한 하는것이 1-Lipschtiz입니다. 또한, WGAN의 weight clipping은 최적화에 문제를 발생시키기 때문에 WGAN-GP는 다음과 같은 기울기 패널티(Gradient Penalty) λ를 추가하여 입력에 대한 판별기 출력의 기울기 표준을 직접 제한합니다.

하지만, λ가 너무 작으면 Lipschitz 제약 조건을 보장할 수 없습니다. 반면에 λ가 너무 크면 패널티가 판별기 손실에 너무 많은 가중을 할 수 있으므로 수렴 속도가 느려질 수 있습니다. 따라서 λ의 선택이 중요한데 이 논문에서는 다음과 같은 그래디언트 패널티를 사용합니다.

기울기가 1보다 작거나 같은 Lipschitz를 더 잘 반영하고 1보다 큰 부분에만 페널티를 줍니다. 더 중요한 것은 가중치 λ를 조정하는 적응형 가중치 체계(A-WGAN)를 사용하여 적절한 가중치를 선택하여 그라디언트는 원하는 간격 (여기서는 [1.001, 1.05]) 내에 위치합니다. 슬라이딩 윈도우 (크기 = 50) 내에서 이동 평균 그라디언트 기간이 상한보다 크면 현재 가중치 λ가 너무 작고 페널티가 Lipschitz 제약 조건을 보장 할만큼 충분히 강하지 않음을 의미합니다. 따라서 가중치를 두 배로 늘려 λ를 증가시킵니다. 반면에 이동 평균이 하한보다 작으면 λ를 절반으로 감소시켜 너무 커지지 않도록 합니다.

아래의 그림을 보면 A-WGAN이 더 빨리 수렴하는것을 볼 수 있습니다.

정리하자면, 이 논문의 목표는 몇 가지 손실함수로 구성됩니다. 첫 번째는 변환된 이미지 y의 내용이 입력 이미지 x와 유사해야하는 Identity loss function입니다.

두번째는 Cycle consistency loss와 adversarial loss 입니다.

또한, Discriminator를 훈련시킬때, Gradient penalty를 적용합니다.

최종적인 Discriminator의 손실함수와 Genarator의 손실함수는 각각 다음과 같이 정의됩니다.

4. Experiments

제안된 방법의 결과가 더 자연스럽고 선명해 보입니다.

또한, 다른 방법들보다 제안된 방법의 결과가 사람들이 더 많이 선호하는 것으로 나타났습니다.

5. Conclusion

이 논문은 사용자가 원하는 특성을 가진 사진에서 이미지 향상을 학습하는 Deep Photo Enhancer를 제시합니다. Unpaired한 학습으로 학습 데이터를 수집하는것이 쉽습니다. 다른 사용자가 제공한 이미지를 가져옴으로써 개별 사용자의 선호도에 맞게 개인화 할 수 있습니다.

profile
I'm a Graduate student studying Deep Learning.KR👨‍💻

0개의 댓글