๐ [์๋ฌธ]
non-parallel์ ๋ค๋๋ค vc์ zero-shot vc๋ฅผ ์ํํ๊ธฐ ์ํด GAN ๊ทธ๋ฆฌ๊ณ CVAE๊ฐ ์๋ก์ด ํด๊ฒฐ์ฑ ์ผ๋ก ๋ฑ์ฅํ์๋ค. ํ์ง๋ง GAN์ training์ ๋ณต์กํ๊ณ CVAE์ training์ ๊ฐ๋จํ์ง๋ง GAN๋งํผ์ ์ข์ ์ฑ๋ฅ์ ๋ด์ง ๋ชปํ๋ค. ๋ฐ๋ผ์ ์ด๋ ผ๋ฌธ์์๋ AutoVC๋ผ๋ autoencoder๋ฅผ ํฌํจํ๋ ์คํค๋ง๋ฅผ ๊ฐ์ง ์๋ก์ด style transfer๋ฅผ ์๊ฐํ๋ค.
[ ๊ธฐ์กด ๋ฐฉ์๋ค์ ๋ฌธ์ ์ ]
์ต๊ทผ์ deep style transfer๋ก GAN, CVAE๋ฑ์ด vc์์ ์ธ๊ธฐ๋ฅผ ์ป๊ณ ์๋ค. ํ์ง๋ง GAN์ ํ๋ จ์ํค๊ธฐ ๋งค์ฐ ์ด๋ ต๊ณ ์๋ ด์ด ์ ์๋๋ค. ์์ฑํ speech์ ํ์ง๋ ๊ทธ๋ ๊ฒ ์ข์ง ์๋ค. ๋ฐ๋ฉด์ CVAE๋ ํ๋ จ์ด ๋น๊ต์ ์ฝ๋ค. ํ์ง๋ง CVAE๋ ์๋ง์ distribution matching์ ๋ณด์ฅํ์ง ์๊ณ conversion output์ over-smoothing์ผ๋ก๋ถํฐ ์ด๋ ค์์ ๊ฒช๋๋ค.
์ ์ ํ style transfer ์๊ณ ๋ฆฌ์ฆ์ GAN์ฒ๋ผ distribution์ ์ผ์น์ํค๊ณ ํ๋ จ์ CVAE์ฒ๋ผ ๊ฐ๋จํ๋ฉด ๋์ง ์์๊น๋ผ๋ ์๋ฌธ์ ๋๊ธฐ๋ฅผ ๋ถ์ฌ๋ฐ์ ์ด๋ ผ๋ฌธ์ AutoVC๋ผ๋ ์๋ก์ด style transfer scheme์ ์ฃผ์ฅํ๋ค.
AutoVC๋ parallel data์์ด๋ ๋ค๋๋ค vc๊ฐ ๊ฐ๋ฅํ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. autoencoder ํ๋ ์์ํฌ๋ฅผ ๋ฐ๋ฅด๊ณ ์ค์ง autoencoder loss๋ก ํ๋ จ๋๋ค. ํ์ง๋ง ์ด๋ ๋ฏธ์ธํ๊ฒ ์กฐ์ ๋ ์ฐจ์ ์ถ์์ ์ผ์์ downsampling์ ๋์ ํ๋ค.
๊ทธ๋ฆฌ๊ณ ์ต์ด๋ก zero-shot vc๊ฐ ๊ฐ๋ฅํ ๋ชจ๋ธ์ด๋ค.
์์ผ๋ก ๋ฑ์ฅํ ์์์์์ ์ ์
Autovc๋ ์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ ๋จ์ํ autoencoder ํ๋ ์์ํฌ์์ vc๋ฅผ ์ํํ๋ค.
[ 3๊ฐ์ง ๋ชจ๋ ๊ตฌ์ฑ ]
์ด ๋ชจ๋๋ค์์์ input์ conversion๊ณผ training๊ณผ์ ์์ ๊ฐ๊ธฐ ๋ค๋ฅด๋ค.
Conversion
๋ณํ ๊ณผ์ ์์ source speech ์ content ์ ๋ณด๋ฅผ ์ถ์ถํ๊ธฐ ์ํด content encoder ๋ก ์ ๋ ฅ๋๋ค
target speech ๋ target ํ์์ ์ ๋ณด๋ฅผ ์ ๊ณตํ๊ธฐ ์ํด speaker encoder ๋ก ์ ๋ ฅ๋๋ค.
๋์ฝ๋๋ source speech์์ content ์ ๋ณด์ target speech์์ target ํ์ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ณํ๋ speech๋ฅผ ์์ฑํ๋ค.
Training
์ด ๋ ผ๋ฌธ์์๋ speaker encoder๊ฐ ์ด๋ฏธ pre-trained๋๋ค๊ณ ๊ฐ์ ํ๊ธฐ์, contetn encoder์ decoder๋ง ํ๋ จ์ ์งํํ๋ค.
parallell data๋ฅผ ๊ฐ์ ํ์ง ์๊ธฐ ๋๋ฌธ์ training์์๋ ์ค์ง self-reconstruction๋ง ์๊ตฌ๋๋ค.
๋ ์์ธํ๊ฒ๋, content encoder์ input์ ์ฌ์ ํ ์ด์ง๋ง, style encoder์์ input์ ๋ก ๋ํ๋๋ ๊ฐ์ ํ์ ์ ๋ฐํ๊ฐ ๋๋ค.
loss function์ ๋ค์๊ณผ ๊ฐ๋ค:
[ Eq(5) & Eq(6) ]
autoencoder๊ธฐ๋ฐ ํ๋ จ ์คํค๋ง๊ฐ ์ด์์ ์ธ vc๋ฅผ ๊ฐ๋ฅ์ผํ๋ ํต์ฌ ์ด์ ๋ ์ ์ ํ information bottelneck๋ฅผ ๊ฐ๋ ๊ฒ์ ์๋ค.
AutoVC์ ํ๋ ์์ํฌ๋ ๋ค์์ ์ด๋ก ๋ฐ ๊ฐ์ ์ ๋ฐ๋ฅธ๋ค.
[ Theorem 1]
Eq3, Eq4๋ฅผ ๊ณ ๋ คํ์ ๋,
์ ์ฌ์ง์์ ๋ณด์ด๋ฏ์ด speech๋ ๋๊ฐ์ง ์ข ๋ฅ์ ์ ๋ณด๋ฅผ ํฌํจํ๋ค : ํ์ ์ ๋ณด & ํ์์ ๋ ๋ฆฝ์ ์ธ ์ ๋ณด(=content ์ ๋ณด)
bottleneck์ด ๋๋ฌด ๋์ผ๋ฉด, content embedding์ธ ์ ์ฐจ์์ด ์ถ์๋๊ธฐ ๋๋ฌธ์ ์ ์ ๋ณด๋ฅผ ์์คํ๊ฒ ๋๋ค.
๋ฐ๋ฉด์ bottleneck์ด ๋๋ฌด ์ข์ผ๋ฉด, content encoder๋ ํ์ ์ ๋ณด ๋ฟ๋ง ์๋๋ผ content ์ ๋ณด๊น์ง ๋๋ฌด ๋ง์ ์ ๋ณด๋ฅผ ์๊ฒ ๋๋ค. ์ด ๊ฒฝ์ฐ ์๋ฒฝํ reconstruction์ ๋ถ๊ฐ๋ฅํ๋ค.
๊ทธ๋ฌ๋ฏ๋ก ์์ฌ์ง์์ (c)์ฒ๋ผ ์ ์ฐจ์์ content ์ ๋ณด๋ฅผ ์์์ํค์ง ์์ผ๋ฉด์ ๋ชจ๋ ํ์ ์ ๋ณด๋ฅผ ์ ๊ฑฐ๊ฐ๋ฅํ ๋งํผ ์ถฉ๋ถํ ์ ๋๋ก ์ฐจ์์ด ์ถ์๋์ด์ผ ํ๋ค.
์ ์ ํ Bottleneck ๋ฒ์๋ฅผ ์ ํ ๊ฒฝ์ฐ, ๋ค์์ด ๊ฐ๋ฅํ๋ค.
speaker encoder์ ๋ชฉํ๋ ๊ฐ์ ํ์์ ๋ค๋ฅธ ๋ฐํ๋ค์์๋ ๊ฐ์ ์๋ฒ ๋ฉ์ ๋ง๋๋ ๊ฒ์ด๋ค.
zero-shot cv๋ฅผ ์ํด์๋ unseenํ ํ์๋ค์์๋ ์ผ๋ฐํ๊ฐ๋ฅํ ์๋ฒ ๋ฉ์ ์ ์ฉํ๋ ๊ฒ์ด ํ์ํ๋ค. ๊ทธ๋ฌ๋ฏ๋ก ์ ๊ทธ๋ฆผ์์ (3)(b)์ฒ๋ผ speaker encoder๋ cell ํฌ๊ธฐ 768์ธ 2๊ฐ์ LSTM ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋์ด ์๋ค. output์์ ๋ง์ง๋ง ์๊ฐ๋ง fc ๋ ์ด์ด๋ก 256์ฐจ์์ผ๋ก ์ ํ๋์๋ค.
speaker embedding์ ๊ฒฐ๊ณผ๋ 256์ 1๋ฒกํฐ์ด๋ค.
์ด๋ GE2E loss๋ก pre-trained๋์๋ค.
์ ์ฌ์ง์์ 3(a)์ฒ๋ผ content encoder์์ input์ ํ์ ์๋ฒ ๋ฉ ๊ณผ ํฉ์ณ์ง ์ 80์ฐจ์์ mel-spectrogram์ด๋ค
ํฉ์ณ์ง ํผ์ณ๋ค์ 3๊ฐ์ 5x1 conv ๋ ์ด์ด๋ค์ ์ ๋ ฅ๋๋ค.
์ฑ๋์ ์๋ 512์ด๊ธฐ์ output์ 2๊ฐ์ bidirectional LSTM ๋ ์ด์ด๋ค์ ํต๊ณผํ๋ค.
information bottleneck์ ๊ตฌ์ฑํ๋๋ฐ ์ค์ํ ๋จ๊ณ๋, BLSTM์ foward์ backward ouput๋ค์ด 32๋ก ๋ค์ด์ํ๋ง๋๋ ๊ฒ์ด๋ค.
content embedding์ ๊ฒฐ๊ณผ๋ฌผ์ 2๊ฐ์ 32-by-T/32 matrices์ด๋ค.
์ ์ฌ์ง์์ 3(c)์ ํด๋นํ๋ ๋์ฝ๋
๋จผ์ content, speaker ์๋ฒ ๋ฉ์ ๋๋ค ์๋์ ์๊ฐ ํด์๋๋ฅผ ๋ณต๊ตฌํ๊ธฐ ์ํด copyingํจ์ผ๋ก์จ ์ ์ํ๋ง๋๋ค.
์ ์ํ๋ง๋ ์๋ฒ ๋ฉ๋ค์ ํฉ์ณ์ง๊ณ 3๊ฐ์ 512์ฑ๋์ ๊ฐ์ง 5x1 conv ๋ ์ด์ด๋ค์ ์ ๋ ฅ๋๋ค. ์ด ์ดํ์๋ ๋ฐฐ์น ์ ๊ทํ, ReLU ๊ทธ๋ฆฌ๊ณ cell dimension 1024๋ฅผ ๊ฐ์ง 3๊ฐ์ LSTM๋ ์ด์ด๋ค์ ํต๊ณผํ๋ค. LSTM์ output๋ค์ ์ฐจ์ 80์ 1x1 conv ๋ ์ด์ด๋ค์ ํฌ์๋๋ค. ์ด ํฌ์์ output์ ๋ก ๋ํ๋๋ ๋ณํ๋ speech์ ์ด๊ธฐ ์ถ์ ์น์ด๋ค.
๋ง์ง๋ง ๋ณํ ๊ฒฐ๊ณผ๋ ์ด๊ธฐ ์ถ์ ์น์ residual๋ฅผ ๋ํจ์ผ๋ก์จ ์์ฑ๋๋ค.
ํ๋ จ๋์ reconstruction loss๋ ์ด๊ธฐ์ ๋ง์ง๋ง reconstruction ๊ฒฐ๊ณผ๋ค ๋ชจ๋์ ์ ์ฉ๋๋ค.
Total loss
[ Eq(12) ]
autoVC๋ 4๊ฐ์ deconv ๋ ์ด์ด๋ค๋ก ๊ตฌ์ฑ๋ WaveNet ๋ณด์ฝ๋๋ฅผ ์ ์ฉํ๋ค.
๊ณต์์ ์ธ ๊ตฌํ์์๋ mel-spectrogram์ frame rate๋ 62.5Hz์ด๊ณ speech waveform์ sampling rate๋ 16kHz์ด๋ค.
pre-trained๋ WaveNet vocoder๋ฅผ ์ฌ์ฉํ๋ค.