style transfer literature을 차용하여 GAN을 위한 alternative generator architecture를 제안한다. 새로운 아키텍처는 높은 수준의 비지도 분리 속성(예: 사람 얼굴에 훈련될 때의 pose와 identity)과 생성된 이미지(예: 주근깨, 머리카락)의 확률적 변화를 자동으로 학습하고, 이어지며, 이미지 합성의 직관적이고 규모별 제어(scale-specific control)를 가능하게 한다. 새로운 생성기는 전통적인 분포 품질 메트릭의 측면에서 sota들의 성능을 향상시키고, 눈에 띄게 더 나은 보간(interpolation) 특성을 유도하며, 또한 변동의 잠재 요인을 더 잘 분리(distangle)한다. 보간 품질과 분리를 정량화(quantify)하기 위해, 우리는 모든 생성기 아키텍처에 적용할 수 있는 두 가지 새로운 자동화된 방법을 제안한다. 마지막으로, 우리는 새롭고 매우 다양하고 고품질의 인간 얼굴 데이터 세트를 소개한다.
생성 방법, 특히 생성적 적대 네트워크(GAN)[22]에 의해 생성된 이미지의 해상도와 품질은 최근 빠르게 개선되었다[30, 45, 5]. 그러나 발전기는 블랙박스로 계속 작동하며, 최근의 노력[3]에도 불구하고, 확률적 특징의 기원과 같은 이미지 합성 과정의 다양한 측면에 대한 이해가 여전히 부족하다. 잠재 공간의 특성 또한 잘 이해되지 않으며, 일반적으로 입증된 잠재 공간 보간 [13, 52, 37]은 서로 다른 발전기를 비교하는 정량적 방법을 제공하지 않는다.
style transfer literature[27]에서 동기 부여를 받아 이미지 합성 프로세스를 제어하는 새로운 방법을 노출하는 방식으로 생성기 아키텍처를 다시 설계한다. 우리의 생성기는 학습된 상수(constant) 입력에서 시작하여 잠재 코드를 기반으로 각 컨볼루션 레이어에서 이미지의 "스타일"을 조정하여 다양한 스케일에서 이미지 기능의 강도를 직접 제어한다. 네트워크에 직접 주입되는 노이즈와 결합된 이러한 아키텍처 변화는 생성된 이미지의 확률적 변화(예: 주근깨, 머리카락)에서 높은 수준의 속성(예: 포즈, 정체성)을 비지도 학습 형태로, 자동으로 분리하게 하고 직관적인 스케일별 혼합 및 보간 작업을 가능하게 한다. 우리는 판별기나 손실 함수를 어떠한 방식으로도 수정하지 않으며, 따라서 우리의 작업은 GAN 손실 함수, 정규화 및 초 매개 변수에 대한 진행 중인 논의와 직교한다.
우리의 생성기는 입력 잠재 코드를 중간 잠재 공간(W) 에 내장하는데, 이는 네트워크에서 변동 요인이 표현되는 방식에 깊은 영향을 미친다. 입력 잠재 공간(z)은 훈련 데이터의 확률 밀도를 따라야 하며, 우리는 이것이 어느 정도의 피할 수 없는 얽힘(unavoidable entanglement) 으로 이어진다고 주장한다. 우리의 중간 잠재 공간은 그 제약으로부터 자유로우며 따라서 분리될 수 있다. 잠재 공간 분리 정도를 추정하는 이전의 방법은 우리의 경우에 직접 적용할 수 없기 때문에, 우리는 발전기의 이러한 측면을 정량화하기 위해 두 가지 새로운 자동화된 메트릭인 perceptual path length와 linear separability를 제안한다. 이러한 메트릭스를 사용하여, 우리는 기존 발전기 아키텍처와 비교하여 우리의 발전기가 다양한 변동 요인에 대한 더 선형적이고 덜 얽힌 표현을 허용한다는 것을 보여준다.
마지막으로, 우리는 기존 고해상도 데이터 세트(부록 A)보다 훨씬 높은 품질을 제공하고 상당히 광범위한 변형을 다루는 새로운 인간 얼굴 데이터 세트(Flickr-Faces-HQ, FFHQ)를 제시한다. 우리는 소스 코드 및 사전 훈련된 네트워크와 함께 이 데이터 세트를 공개적으로 사용할 수 있게 했다.1 동봉된 동영상은 동일한 링크에서 찾을 수 있습니다.
생성기의 특성을 연구하기 전에, 우리는 재설계(redesign)가 이미지 품질을 손상시키는 것이 아니라 실제로 상당히 향상시킨다는 것을 실험적으로 입증한다. 표 1은 CELEBA-HQ [30]의 다양한 발전기 아키텍처에 대한 FRechet 시작 거리(FID) [' 25]와 우리의 새로운 FFHQ 데이터 세트(부록 A)를 제공한다. 다른 데이터 세트에 대한 결과는 부록 E에 나와 있습니다. 우리의 기본 구성(A)은 Karas 등의 Progressive GAN 설정 이다. 우리는 이를 달리 명시된 경우를 제외하고는 네트워크와 모든 하이퍼 매개 변수를 상속합니다. 먼저 이중 선형 상향/하향 샘플링 작업[64]을 이용하여, 더 긴 교육 및 조정된 하이퍼 매개 변수를 사용하여, 개선된 기준선(B) 으로 전환한다.(기존 pggan에서는 업샘플링시에 nearest neighbor 그리고 다운샘플링시 에버리지 풀링을 사용) 교육 설정 및 하이퍼 파라미터에 대한 자세한 설명은 부록 C에 포함되어 있습니다. 그런 다음 매핑 네트워크와 AdaIN를 추가하여 이 새로운 기준선을 더욱 개선합니다.연산(C)에서, 그리고 네트워크가 더 이상 잠재 코드를 첫 번째 컨볼루션 레이어에 공급하는 것은 이익을 얻지 못한다는 놀라운 관찰을 한다. 따라서 기존의 입력 계층을 제거하고 학습된 4 × 4 × 512 상수 텐서(D)에서 이미지 합성을 시작하여 아키텍처를 단순화한다. 우리는 합성 네트워크가 Ada를 제어하는 스타일을 통해서만 입력을 받음에도 불구하고 의미 있는 결과를 생성할 수 있다는 것을 꽤 주목할 만하다.운영 중인. 마지막으로 결과를 더욱 향상시키는 노이즈 입력(E) 과 이웃 스타일과 관련된 새로운 혼합 정규화(F) 를 소개하고 생성된 이미지에 대한 보다 세밀한 세분화 제어를 가능하게 한다(제3.1절). 우리는 두 가지 다른 손실 함수를 사용하여 우리의 방법을 평가한다. CELEBA-HQ의 경우 WGAN-GP [24]에 의존하는 반면 FFHQ는 구성 A에 WGAN-GP를 사용하고 구성 B-F에 대해 R1 정규화 [44, 51, 14]에 비포화 손실 [22]을 사용한다. 우리는 최고의 결과를 얻기 위해 이러한 선택들을 찾았다. 우리의 기여는 손실 함수를 수정하지 않는다. 우리는 스타일 기반 생성기(E)가 기존 생성기(B)보다 FID를 상당히 향상시켜 거의 20%가 병렬 작업에서 수행된 대규모 ImageNet 측정을 입증한다는 것을 관찰한다[6, 5]. 그림 2는 생성기를 사용하여 FFHQ 데이터 세트에서 생성된 미처리가 된 새로운 이미지 세트를 보여준다. FID에 의해 확인되었듯이, 평균적인 품질은 높고, 안경이나 모자 같은 액세서리들도 성공적으로 합성된다. 이 그림에서, 우리는 소위 잘라내기 트릭[42, 5, 34]을 사용하여 W의 극한 영역에서 샘플링하는 것을 피했습니다. 부록 B는 트릭이 Z가 아닌 W로 수행될 수 있는 방법을 자세히 설명합니다. 우리 생성기는 고해상도 세부 사항에 영향을 미치지 않도록 낮은 해상도에만 절단을 선택적으로 적용할 수 있습니다. 이 논문의 모든 FID는 잘라내기 트릭 없이 계산되며, 우리는 그것을 그림 2와 비디오의 설명 목적으로만 사용한다. 모든 영상이 10242 해상도로 생성됩니다.
GAN 아키텍처에 대한 작업의 대부분은 예를 들어 다중 판별기[18, 47, 11], 다중 해상도 판별기[60, 55] 또는 셀프 어텐션[63]를 사용하여 판별기를 개선하는 데 초점을 맞추었다. 발전기 측의 연구는 대부분 입력 잠재 공간[5]의 정확한 분포나 가우스 혼합 모델[4], 클러스터링[48] 또는 장려 볼록성[52]을 통해 입력 잠재 공간을 형성하는 데 초점을 맞추고 있다. 최근의 조건부 생성기는 별도의 임베딩 네트워크를 통해 클래스 식별자를 생성기[46]의 많은 레이어에 공급하는 반면, 잠재 생성기는 여전히 입력 레이어를 통해 제공된다. 몇몇 저자들은 잠재 코드의 일부를 여러 발전기 층에 공급하는 것을 고려했다[9, 5]. 첸 외 연구진은 병행 작업입니다. [6] Ada를 사용하여 제너레이터를 "셀프 변조"합니다.INS는 우리의 작업과 비슷하지만 중간 잠재 공간이나 소음 입력을 고려하지 않는다.
대충 아무도 자기처럼 w사용안했다는 이야기
잠재 공간이 충분히 풀어헤쳐져있다면 개별 변동 요인에 일관되게 대응하는 방향 벡터를 찾을 수 있어야 한다. 우리는 각 세트가 이미지의 특정 이진 속성에 해당하도록 잠재 공간 포인트가 선형 초평면을 통해 두 개의 별개의 세트로 얼마나 잘 분리될 수 있는지를 측정하여 이 효과를 정량화하는 다른 메트릭을 제안한다.
생성된 이미지에 레이블을 지정하기 위해, 우리는 여러 이진 속성에 대한 보조 분류 네트워크를 훈련시킨다. 예를 들어, 남성과 여성의 얼굴을 구별하기 위해서이다. 우리의 테스트에서, 분류기는 우리가 사용하는 판별기와 동일한 아키텍처(즉, [30] PGGAN에서 동일)를 가지고 있었고, 원래의 CelebA 데이터 세트에서 사용할 수 있는 40개의 속성을 유지하는 CELEBA-HQ 데이터 세트를 사용하여 훈련되었다. 하나의 속성의 분리성을 측정하기 위해 z~P(z)로 200,000개의 이미지를 생성하고 보조 분류 네트워크를 사용하여 분류한다. 그런 다음 분류기 신뢰도에 따라 샘플을 정렬하고 신뢰도가 가장 낮은 절반을 제거하여 100,000개의 레이블이 지정된 잠재 공간 벡터를 생성한다.
각 속성에 대해, 우리는 선형 SVM을 적합시켜 잠재 공간 포인트(전통적인 경우 z, 스타일 기반 경우 w)를 기반으로 레이블을 예측하고 이 평면으로 포인트를 분류한다. 그런 다음 조건부 엔트로피 H(Y|X)를 계산합니다. 여기서 X는 SVM에 의해 예측된 클래스이고 Y는 사전 훈련된 분류기에 의해 결정된 클래스입니다. 이것은 샘플이 초평면의 어느 쪽에 있는지 알고 있다는 점에서 샘플의 실제 클래스를 결정하는 데 얼마나 많은 추가 정보가 필요한지 말해준다. 값이 낮으면 해당 변동 요인에 대해 일관된 잠재 공간 방향이 제시됩니다.
우리는 최종 분리성 점수를 exp(PiH(Yi | Xi))로 계산한다. 여기서 나는 40개의 속성을 열거한다. 시작 점수[53]와 유사하게, 지수화는 비교하기 쉽도록 로그에서 선형 영역으로 값을 가져옵니다.
Tables 3 and 4 show that W is consistently better separable than Z, suggesting a less entangled representation.
또한 매핑 네트워크의 깊이를 증가시키면 W에서 이미지 품질과 분리성이 모두 향상되는데, 이는 합성 네트워크가 본질적으로 분리된 입력 표현을 선호한다는 가설과 일치한다. 흥미롭게도, 전통적인 생성기 앞에 매핑 네트워크를 추가하면 Z에서는 분리성이 심각하게 상실되지만 중간 잠재 공간 W에서는 상황이 개선되고 FID도 개선된다. 이는 기존의 발전기 아키텍처도 훈련 데이터의 분포를 따르지 않아도 되는 중간 잠재 공간을 도입할 때 더 나은 성능을 발휘한다는 것을 보여준다.
우리의 결과와 Chen 등의 병렬 작업을 모두 기반으로 합니다. [6], 전통적인 GAN 생성기 아키텍처는 모든 면에서 스타일 기반 설계보다 열등하다는 것이 분명해지고 있다. 이는 확립된 품질 지표 측면에서 사실이며, 우리는 중간 잠재 공간의 선형성뿐만 아니라 높은 수준의 속성과 확률적 효과의 분리에 대한 우리의 조사가 GAN 합성의 이해와 제어 가능성을 향상시키는 데 도움이 될 것이라고 믿는다. 우리는 우리의 평균 경로 길이 메트릭이 훈련 중에 정규화기로 쉽게 사용될 수 있으며, 선형 분리성 메트릭의 일부 변형도 하나로 작용할 수 있다는 것에 주목한다. 일반적으로, 우리는 훈련 중 중간 잠재 공간을 직접 형성하는 방법이 향후 작업을 위한 흥미로운 방법을 제공할 것으로 기대한다.