[DL/Audio] VQVC & VQVC+

구링·2024년 8월 31일

[Paper Review]

목록 보기

3/8

📄 참고

https://randomsampling.tistory.com/323
https://randomsampling.tistory.com/322
[원문 - VQVC] https://ieeexplore.ieee.org/document/9053854
[원문 - VQVC+] https://arxiv.org/abs/2006.04154

VQVC

추후에 추가 예정...

VQVC+

AutoEncoder-based system에 대해 U-Net architecture를 도입해 conversion 품질을 향상Strong information bottleneck을 위해 latent vector를 quantize 하는 vector quantization을 도입

💡 quantization 양자화

-> vqvc architecture

VQ = vector quantization layer
IN = instance normalization layer
VQVC
IN + VQ layer들을 적용해 voice conversion을 얻기 위해 내용과 화자의 정보를 분리한다

-> vqvc+ architecture

성능 향상 위해 U-net 아키텍쳐 적용
인코더에서 각 sub-module은 다양한 종류의 VQVC 인코더
양자화된 output C와 화자의 임베딩 S는 연속적인 임베딩 V대신에 디코더와 skip-connected (직접 연결된다)

💡 VQVC의 한계점

언어적 내용과 화자의 정보를 잘 분리?하지만 합성된 오디오 퀄리티가 여전히 개선 필요

target 화자의 특성에 맞는 오디오를 합성하지만 오디오의 vocalization은 모호함

그 이유를 벡터 양자화에 의한 정보손실이라고 생각
- 이는 디코더가 내용을 적절히 재건설을 불가능하게 만들기 때문
⇒ 그러므로 합성 퀄리티 높이기 위해 Unet 아키텍쳐를 도입

Encoder

다양한 크기의? VQ down-conv 3개로 이뤄짐
VQ down-conv
- 2개의 3x1 kernel 1D-convolution layer + IN layer + vector quantization layer
- VQ down-conv(c_in, c_h)
  - input : (c_in, T)
  - output : V, C, S
  - V : convolution block에서 가져온 연속적 공간의 임베딩
    - 차원 → (c_in / 2 , T / 2)
  - C : IN에서 VQ를 지나가는 양자화된 행렬의 V
    - 차원 → (c_in / 2 , T / 2)
  - S : 화자의 임베딩
    - 차원 → (c_in / 2 , T / 2)

Decoder

VQ up-conv 3개로 이뤄져있음
VQ up-conv는 이전 레이어의 output인 V와 대응되는 인코더 레이어에서 생성된 C, S를 입력으로 받음
- 임베딩들은 주파수와 시간 도메인 두 요소에 의해 더해지고 up-smapled된다
- 3가지 메인 요소들인 Group Norm block(GBlock) , TimeUpsampling, FreqUpsampling
- GBlock

- 2개의 3x1 kernel 1D-convolution layers + Group Norm + LeakyReLU
    - input size = output size

TimeUpsampling module
- 시간 차원 확장 위해 각 벡터를 2배로 복제함
FreqUpsampling module
- mel-spectrogram에서 저주파대 구역의 중요성을 강조
- 이는 저주파수 부분을 사용해서 고주파수 부분을 생성하고 output으로서 합친다
C, S는 먼저 더해지고 GBlock을 통과한다
그리고 이후에 이전 레이어의 V를 추가한다
그런 다음 2 개의 업샘플링 모듈을 거쳐 출력을 얻는다

U-Net

VQ down-conv는 자체적으로 V, C,S를 만든다
이중 V는 다음 VQ down-conv 모듈로 전달되고, C, S는 디코더의 해당 VQ up-conv로 전달됨다
모델은 각 레이어의 최근의 loss인 L_latent와 reconstruction loss인 L_rec로 훈련된다
학습 동안에 모든 레이어의 L_latent에 동일한 가중치 $\lambda$ 를 할당한다

구링

📝 데이터사이언스 학부생의 기록장!

이전 포스트

[DL/Audio] Audio Spectrogram Transformer

다음 포스트