๐ ์ฐธ๊ณ
VQVC
์ถํ์ ์ถ๊ฐ ์์ ...
VQVC+
AutoEncoder-based system์ ๋ํด U-Net architecture๋ฅผ ๋์
ํด conversion ํ์ง์ ํฅ์Strong information bottleneck์ ์ํด latent vector๋ฅผ quantize ํ๋ vector quantization์ ๋์
๐ก quantization ์์ํ


-> vqvc architecture
-
VQ = vector quantization layer
-
IN = instance normalization layer
-
VQVC
-
IN + VQ layer๋ค์ ์ ์ฉํด voice conversion์ ์ป๊ธฐ ์ํด ๋ด์ฉ๊ณผ ํ์์ ์ ๋ณด๋ฅผ ๋ถ๋ฆฌํ๋ค
-> vqvc+ architecture
- ์ฑ๋ฅ ํฅ์ ์ํด U-net ์ํคํ
์ณ ์ ์ฉ
- ์ธ์ฝ๋์์ ๊ฐ sub-module์ ๋ค์ํ ์ข
๋ฅ์ VQVC ์ธ์ฝ๋
- ์์ํ๋ output C์ ํ์์ ์๋ฒ ๋ฉ S๋ ์ฐ์์ ์ธ ์๋ฒ ๋ฉ V๋์ ์ ๋์ฝ๋์ skip-connected (์ง์ ์ฐ๊ฒฐ๋๋ค)
๐ก VQVC์ ํ๊ณ์
- ์ธ์ด์ ๋ด์ฉ๊ณผ ํ์์ ์ ๋ณด๋ฅผ ์ ๋ถ๋ฆฌ?ํ์ง๋ง ํฉ์ฑ๋ ์ค๋์ค ํ๋ฆฌํฐ๊ฐ ์ฌ์ ํ ๊ฐ์ ํ์
- target ํ์์ ํน์ฑ์ ๋ง๋ ์ค๋์ค๋ฅผ ํฉ์ฑํ์ง๋ง ์ค๋์ค์ vocalization์ ๋ชจํธํจ
- ๊ทธ ์ด์ ๋ฅผ ๋ฒกํฐ ์์ํ์ ์ํ ์ ๋ณด์์ค์ด๋ผ๊ณ ์๊ฐ
- ์ด๋ ๋์ฝ๋๊ฐ ๋ด์ฉ์ ์ ์ ํ ์ฌ๊ฑด์ค์ ๋ถ๊ฐ๋ฅํ๊ฒ ๋ง๋ค๊ธฐ ๋๋ฌธ
โ ๊ทธ๋ฌ๋ฏ๋ก ํฉ์ฑ ํ๋ฆฌํฐ ๋์ด๊ธฐ ์ํด Unet ์ํคํ
์ณ๋ฅผ ๋์
Encoder
- ๋ค์ํ ํฌ๊ธฐ์? VQ down-conv 3๊ฐ๋ก ์ด๋ค์ง
- VQ down-conv
- 2๊ฐ์ 3x1 kernel 1D-convolution layer + IN layer + vector quantization layer

- VQ down-conv(c_in, c_h)
- input : (c_in, T)
- output : V, C, S
- V : convolution block์์ ๊ฐ์ ธ์จ ์ฐ์์ ๊ณต๊ฐ์ ์๋ฒ ๋ฉ
- ์ฐจ์ โ (c_in / 2 , T / 2)
- C : IN์์ VQ๋ฅผ ์ง๋๊ฐ๋ ์์ํ๋ ํ๋ ฌ์ V
- ์ฐจ์ โ (c_in / 2 , T / 2)
- S : ํ์์ ์๋ฒ ๋ฉ
- ์ฐจ์ โ (c_in / 2 , T / 2)
Decoder
-
VQ up-conv 3๊ฐ๋ก ์ด๋ค์ ธ์์

-
VQ up-conv๋ ์ด์ ๋ ์ด์ด์ output์ธ V์ ๋์๋๋ ์ธ์ฝ๋ ๋ ์ด์ด์์ ์์ฑ๋ C, S๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ์
- ์๋ฒ ๋ฉ๋ค์ ์ฃผํ์์ ์๊ฐ ๋๋ฉ์ธ ๋ ์์์ ์ํด ๋ํด์ง๊ณ up-smapled๋๋ค
- 3๊ฐ์ง ๋ฉ์ธ ์์๋ค์ธ Group Norm block(GBlock) , TimeUpsampling, FreqUpsampling
- GBlock

- 2๊ฐ์ 3x1 kernel 1D-convolution layers + Group Norm + LeakyReLU
- input size = output size
- TimeUpsampling module

- ์๊ฐ ์ฐจ์ ํ์ฅ ์ํด ๊ฐ ๋ฒกํฐ๋ฅผ 2๋ฐฐ๋ก ๋ณต์ ํจ
- FreqUpsampling module
- mel-spectrogram์์ ์ ์ฃผํ๋ ๊ตฌ์ญ์ ์ค์์ฑ์ ๊ฐ์กฐ
- ์ด๋ ์ ์ฃผํ์ ๋ถ๋ถ์ ์ฌ์ฉํด์ ๊ณ ์ฃผํ์ ๋ถ๋ถ์ ์์ฑํ๊ณ output์ผ๋ก์ ํฉ์น๋ค
- C, S๋ ๋จผ์ ๋ํด์ง๊ณ GBlock์ ํต๊ณผํ๋ค
- ๊ทธ๋ฆฌ๊ณ ์ดํ์ ์ด์ ๋ ์ด์ด์ V๋ฅผ ์ถ๊ฐํ๋ค
- ๊ทธ๋ฐ ๋ค์ 2 ๊ฐ์ ์
์ํ๋ง ๋ชจ๋์ ๊ฑฐ์ณ ์ถ๋ ฅ์ ์ป๋๋ค
U-Net
- VQ down-conv๋ ์์ฒด์ ์ผ๋ก V, C,S๋ฅผ ๋ง๋ ๋ค
- ์ด์ค V๋ ๋ค์ VQ down-conv ๋ชจ๋๋ก ์ ๋ฌ๋๊ณ , C, S๋ ๋์ฝ๋์ ํด๋น VQ up-conv๋ก ์ ๋ฌ๋จ๋ค
- ๋ชจ๋ธ์ ๊ฐ ๋ ์ด์ด์ ์ต๊ทผ์ loss์ธ L_latent์ reconstruction loss์ธ L_rec๋ก ํ๋ จ๋๋ค
- ํ์ต ๋์์ ๋ชจ๋ ๋ ์ด์ด์ L_latent์ ๋์ผํ ๊ฐ์ค์น ฮป๋ฅผ ํ ๋นํ๋ค