: A FAST WAVEFORM GENERATION MODEL BASED ON GENERATIVE ADVERSARIAL NETWORKS WITH MULTI-RESOLUTION SPECTROGRAM
논문이 제시하는 Parallel WaveGAN은
기존의 Deep Generative model들은 좋은 퀄리티의 speech를 생성한다.
하지만 WaveNet 같은 autoregressive model은 inference speed가 느리다는 문제가 있다.
이를 해결하기 위해 teacher-student framework 기반의 Knowledge Distillation 기법을 적용하였지만, 이는 학습 과정이 복잡하고 잘 훈련된 teacher 모델이 필요했다.
기존 Vocoder 모델의 문제점
느린 속도와 복잡한 계산 과정을 해결하기 위해 본 논문은 Distillation 기법을 사용하지 않는 Parallel WaveGAN을 제안하였다.
이 모델은 multi-resolution STFT loss와 adversarial loss를 결합하여 non-autoregressive WaveNet (Generator)을 학습시킨다.
그 결과 학습 과정도 훨씬 단순해지면서 적은 parameters로 자연스러운 speech를 생성할 수 있다.
Parallel WaveGAN은 GAN 기반의 모델이므로 generator(G)와 Discriminator(D) network로 구성된다.
Generator로 WaveNet을 사용하는데, 기존의 WaveNet과 다른 점은 아래 3가지이다.
z : input white noise
Generator는 adversarial loss를 최소화하여 discriminator를 속이길 시도하며 실제 waveforms의 분포를 학습한다.
- x : target waveform
- pdata : 실제 waveform의 분포
반면, discriminator는 generator가 생성한 샘플을 가짜로 잘 분류하기 위해 위의 discriminator loss를 사용한다.
저자는 이 방법을 음성 합성에 적용하였다.
adversarial trainig process의 안정성과 효율성을 향상시키기 위해 본 논문은 처음으로 multi-resolution STFT auxiliary loss 개념을 제안한다.
- Lsc: Spectral convergence Loss
- Lmag: log STFT magnitude loss
Generator가 저주파수를 중심으로 강조되는 components에 대해 reproduce하도록 한다.
Generator가 speech의 디테일한 구조를 reproduce하도록 한다.
즉 Spectral convergence와 Log STFT magnitude loss는 상호보완적인 관계이다.
- M : STFT loss의 개수
STFT 기반 time-frequency representation에서는 time과 frequency가 trade-off 관계이다. (예를 들어, window size가 커지면 frequency resolution은 높아지고 time resolution은 낮아진다.)
이를 해결하기 위해 매개변수를 조정한 여러 STFT loss들의 평균을 사용한다. 또한 이는 하나의 resolution STFT를 사용했을 때의 overfitting 위험을 방지한다.
- λadv: 두 loss의 비율을 맞추기 위한 하이퍼파라미터
위에서 소개한 auxiliary loss와 adversarial loss의 합이 최종 loss function이 된다.
auxiliary loss와 adversarial loss를 공동으로 최적화함으로써 generator는 실제 음성의 분포를 더 효과적으로 학습할 수 있다.
- Inference speed: Parallel WaveGAN > ClariNet > WaveNet
- Model size: WaveNet > ClariNet > Parallel WaveGAN
- MOS: Ground Truth > ClariNet > Parallel WaveGAN > WaveNet
multi-resolution STFT loss를 사용하였을 때 perceptual quality가 향상되는 것을 확인할 수 있다. 즉 auxiliary loss가 speech 생성 모델에 효과적이라는 것을 확인하였다.
Parallel WaveGAN은 복잡한 density distillation 과정이 필요없기 때문에 다른 모델들에 비해 학습 속도가 빠르다.
Transformer TTS 모델로부터 생성된 aucoustic features를 각 Vocoder의 input auxiliary features로 사용하였을 때의 MOS(Mean Opinion Score).
TTS의 Vocoder로서 Parallel WaveGAN의 성능은 knowledge-Distillation 기반의 ClariNet-GAN 모델과 필적하는 것을 확인할 수 있다.
Parallel WaveGAN