Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization

emforce·2022년 10월 1일
0

Abstract

Gatys 등은 최근 콘텐츠 이미지를 다른 이미지의 스타일로 렌더링하는 신경 알고리즘을 도입하여 이른바 스타일 전송을 달성하였다. 그러나 그들의 프레임워크는 느린 반복 최적화 프로세스를 필요로 하므로 실제 적용이 제한된다. 신경 스타일 전송 속도를 높이기 위해 피드포워드 신경망을 이용한 빠른 근사치가 제안되었다. 불행하게도, 속도 향상에는 비용이 든다: 네트워크는 일반적으로 고정된 스타일 세트에 묶여 있고 임의의 새로운 스타일에 적응할 수 없다. 본 논문에서, 우리는 처음으로 실시간으로 임의의 스타일 전송을 가능하게 하는 간단하면서도 효과적인 접근 방식을 제시한다. 우리 방법의 핵심은 새로운 적응 인스턴스 정규화(Ada)이다.IN) 도면층은 내용 피쳐의 평균 및 분산을 스타일 피쳐의 도면층과 정렬합니다. 우리의 방법은 미리 정의된 스타일 세트에 대한 제한 없이 가장 빠른 기존 접근 방식과 비슷한 속도를 달성한다. 또한 우리의 접근 방식은 단일 피드포워드 신경망을 사용하여 콘텐츠 스타일의 트레이드오프, 스타일 보간, 색상 및 공간 제어와 같은 유연한 사용자 제어를 가능하게 한다.

1. Introduction

게이티스 외 연구진의 중요한 작품. [16]은 심층 신경망(DNN)이 이미지의 내용뿐만 아니라 스타일 정보를 인코딩한다는 것을 보여주었다. 게다가, 이미지 스타일과 콘텐츠는 어느 정도 분리될 수 있다: 이미지의 콘텐츠를 보존하면서 이미지의 스타일을 변경할 수 있다. [16]의 스타일 전송 방법은 임의의 이미지의 내용과 스타일을 결합할 수 있을 만큼 유연하다. 그러나, 그것은 엄청나게 느린 최적화 프로세스에 의존한다. 신경 스타일 전달을 가속화하는 데 상당한 노력이 기울여졌다. [24, 51, 31] 단일 전진 패스로 스타일화를 수행하는 피드포워드 신경망의 훈련을 시도했다. 대부분의 피드포워드 방법의 주요 제한은 각 네트워크가 단일 스타일로 제한된다는 것이다. 이 문제를 다루는 최근 연구들이 있지만, 그것들은 여전히 유한한 스타일의 집합[11, 32, 55, 5]으로 제한되거나 단일 스타일 전송 방법[6]보다 훨씬 느리다. 이 연구에서, 우리는 이 근본적인 유연성-속도 딜레마를 해결하는 첫 번째 신경 스타일 전송 알고리듬을 제시한다. 우리의 접근 방식은 최적화 기반 프레임워크의 유연성과 가장 빠른 피드포워드 접근 방식과 유사한 속도를 결합하여 임의의 새로운 스타일을 실시간으로 전송할 수 있다[24, 52]. 우리의 방법은 인스턴스 정규화(IN) [52, 11] 레이어에서 영감을 받아 피드포워드 스타일 전송에 놀라울 정도로 효과적이다. 인스턴스 정규화의 성공을 설명하기 위해 인스턴스 정규화가 이미지의 스타일 정보를 전달하는 것으로 밝혀진 형상 통계를 정규화하여 스타일 정규화를 수행한다는 새로운 해석을 제안한다 [16, 30, 33]. 우리의 해석에 자극을 받아, 우리는 IN에 대한 간단한 확장, 즉 적응형 인스턴스 정규화(Ada)를 도입한다.IN). 내용 입력과 스타일 입력이 주어지면, 에이다IN은 단순히 내용 입력의 평균과 분산을 스타일 입력의 평균과 일치하도록 조정합니다. 실험을 통해 우리는 에이다를 찾는다.IN은 특징 통계를 전송하여 전자와 후자의 내용을 효과적으로 결합한다. 그런 다음 디코더 네트워크는 Ada를 반전시켜 최종 양식화된 이미지를 생성하는 방법을 학습한다.이미지 공간으로 다시 출력합니다. 우리의 방법은 임의의 새로운 스타일에 입력을 전송하는 유연성을 희생하지 않고 [16]보다 거의 3배 빠르다. 또한, 우리의 접근 방식은 훈련 프로세스를 수정하지 않고 런타임에 풍부한 사용자 제어를 제공한다.

2. Related Work

Style transfer

스타일 전달의 문제는 비사진 현실적 렌더링[28]에서 비롯되었으며, 텍스처 합성 및 전달[13, 12, 14]과 밀접한 관련이 있다. 일부 초기 접근법에는 선형 필터 응답에 대한 히스토그램 일치[19]와 비모수 표본 추출[12, 15]이 포함된다. 이러한 방법은 일반적으로 낮은 수준의 통계에 의존하며 종종 의미론적 구조를 포착하지 못한다. 게이티스 외. [16] 처음으로 DNN의 컨볼루션 레이어에서 특징 통계를 일치시킴으로써 인상적인 스타일 전송 결과를 보여주었다. 최근 [16]에 대한 몇 가지 개선이 제안되었다. Li와 Wand [30]는 로컬 패턴을 시행하기 위해 심층 특징 공간에 마르코프 랜덤 필드(MRF)를 기반으로 하는 프레임워크를 도입했다. 게이티스 외. [17] 색상 보존, 공간 위치 및 스타일 전송의 규모를 제어하는 방법을 제안하였다. 루더 외. [45] 시간적 제약을 가함으로써 비디오 스타일 전송의 품질을 향상시켰다. Gatys 등의 프레임워크입니다. [16]은 손실 네트워크에 의해 계산된 콘텐츠 손실과 스타일 손실을 최소화하기 위해 이미지를 반복적으로 업데이트하는 느린 최적화 프로세스를 기반으로 한다. 최신 GPU와도 융합하는 데 몇 분이 걸릴 수 있다. 따라서 모바일 애플리케이션의 장치 내 처리는 실용적이기에는 너무 느리다. 일반적인 해결 방법은 최적화 프로세스를 동일한 목표를 최소화하도록 훈련된 피드포워드 신경망으로 대체하는 것이다[24, 51, 31]. 이러한 피드포워드 스타일 전송 접근 방식은 최적화 기반 대안보다 약 3배 더 빠르며, 실시간 애플리케이션의 문을 연다. 왕 외. [53] 다중 해상도 아키텍처를 통해 피드포워드 스타일 전송의 세분성을 개선했습니다. 율리아노프 외. [52] 생성된 샘플의 품질과 다양성을 개선하기 위한 방법을 제안했다. 그러나, 위의 피드포워드 방법들은 각 네트워크가 고정된 스타일에 묶여 있다는 점에서 제한적이다. 이 문제를 해결하기 위해, Dumoulin 외 연구진. [11]은 32가지 스타일과 보간을 인코딩할 수 있는 단일 네트워크를 도입했습니다. 우리의 일과 병행한다, Li 외. [32]는 최대 300개의 텍스처를 합성하고 16개의 스타일을 전송할 수 있는 피드포워드 아키텍처를 제안하였다. 그러나 위의 두 가지 방법은 훈련 중에 관찰되지 않는 임의의 스타일에 적응할 수 없다. 매우 최근에, Chen과 Schmidt[6]는 스타일 스왑 레이어 덕분에 임의의 스타일을 전송할 수 있는 피드포워드 방법을 도입했다. 콘텐츠 및 스타일 이미지의 기능 활성화가 주어지면 스타일 스왑 계층은 패치별 방식으로 콘텐츠 기능을 가장 근접하게 일치하는 스타일 기능으로 교체한다. 그럼에도 불구하고 스타일 스왑 계층은 새로운 계산 병목 현상을 일으킨다. 계산의 95% 이상이 512 × 512 입력 이미지의 스타일 스왑에 사용된다. 우리의 접근 방식은 또한 [6]보다 1~2배 빠른 임의 스타일 전송을 허용한다. 스타일 전송의 또 다른 중심 문제는 어떤 스타일 손실 함수를 사용할 것인가이다. Gatys 등의 원래 프레임워크입니다. [16]은 그램 행렬에 의해 캡처된 형상 활성화 간의 2차 통계를 일치시켜 스타일을 일치시킨다. MRF 손실 [30], 적대적 손실 [31], 히스토그램 손실 [54], CORAL 손실 [41], MMD 손실 [33], 채널별 평균과 분산 사이의 거리[33]와 같은 다른 효과적인 손실 함수가 제안되었다. 위의 모든 손실 함수는 스타일 이미지와 합성 이미지 사이의 일부 특징 통계를 일치시키는 것을 목표로 합니다.

0개의 댓글