WaveNet: A Generative Model for Raw Audio 논문 정리

Hα ყҽσɳɠ·2022년 3월 31일

Vocoder

목록 보기

1/3

A.Oord et al., "WaveNet: A Generative Model for Raw Audio" (2016)
https://arxiv.org/pdf/1609.03499.pdf
구글 딥마인드에서 발표한 오디오 생성 모델, 인용수가 3천이 넘는 멋쨍이 논문...

Abstract

Raw audio waveform을 생성하기 위한 deep neural network, WaveNet 제안

이전 샘플들을 조건으로 하여 각 오디오 샘플에 대한 예측 분포를 사용하는 확률적이고 자기회귀적인 모델
Autoregressive 구조임에도 불구하고 효율적인 학습 가능함
Parametric TTS, concatenative TTS 보다 좋은 성능

Introduction

본 논문은 이미지와 텍스트와 같은 복잡한 분포를 모델링하는 neural autoregressive generative model에서 영감을 받은 raw audio generation 기술에 대해 연구하였다.
조건부 분포의 결과로 뉴럴 아키텍쳐를 사용하여 pixel 또는 word에 대한 joint distribution을 모델링하여 SOTA 성능을 얻었다.

Contribution

Raw speech signal을 생성하는 부분에 있어 SOTA 성능
Raw audio generation에 필요한 장거리 시간 종속성을 처리하기 위한 large receptive field를 가지는 dilated causal convolution 기반의 아키텍쳐 제안
스피커ID를 조건으로 했을 때, 단일 모델을 사용하여 다른 목소리 생성 가능
작은 음성 인식 데이터셋에서 테스트 할 때 좋은 성능 보임
오디오 생성(e.g. TTS, music, speech enhancement, voice conversion, source separation)에 의존하는 많은 응용 프로그램을 처리하기 위한 일반적이고 유연한 프레임워크 제공

Experimental Results

Multi-speaker speech generation

Hα ყҽσɳɠ

𝑯𝒐𝒏𝒆𝒔𝒕𝒚 𝑰𝒏𝒕𝒆𝒈𝒓𝒊𝒕𝒚 𝑬𝒙𝒄𝒆𝒍𝒍𝒆𝒏𝒄𝒆