StarGan-VC 리뷰

백지원·2023년 5월 17일
0

StarGAN-VC

StarGAN-VC는 CycleGAN-VC를 확장한 모델로, 실시간 구현이 가능하고 몇 분 정도의 학습 데이터만으로도 자연스러운 소리를 생성할 수 있으며 다중 스피커 음성 변환을 위한 새로운 GAN 기반 방법이다.
병렬 발화, 전사 또는 시간 맞춤 절차 없이 다양한 속성 도메인 간의 다대다 매핑을 동시에 학습하는 단일 생성자 네트워크를 사용하여 여러 화자를 다른 대상 화자의 음성으로 변환할 수 있도록 한다.

StarGAN-VC 손실 함수

StarGAN-VC 모델에서는 생성자(generator)와 판별자(discriminator) 두 개의 신경망을 사용한다.
생성자는 입력 음성을 다른 화자의 음성으로 변환하는 역할을 하며, 판별자는 생성된 음성이 진짜인지 가짜인지 판별하는 역할을 한다.

StarGAN-VC 모델에 사용되는 손실 함수는 다음과 같다.
1.Adversarial Loss
생성된 음성과 진짜 음성을 구분하는 이진 분류 문제를 통해 생성자와 판별자를 경쟁하게 한다.
이 과정을 통해 생성된 음성이 진짜 음성과 구분하기 어렵도록 만든다.

2.Cycle-Consistency Loss
CycleGAN-VC 모델에서 사용되었던 손실 함수이다.
입력한 원래 화자와 변환된 화자 사이에 일정한 일대일 매핑 관계가 유지되도록 한다.
이를 통해 변환 과정에서 발생할 수 있는 정보 손실을 최소화하고 자연스러운 변환 결과를 얻을 수 있다.

3.Identity Mapping Loss
입력한 화자와 변환된 화자가 동일한 경우, 변환 과정을 거치지 않고 그대로 출력되도록 하기 위한 손실 함수이다.

모델 성능 평가

본 논문에서는 StarGAN-VC와 CycleGAN-VC 두 모델의 성능을 비교하였다.
8명의 참가자(listener)를 대상으로 AB테스트와 ABX테스트를 실시하였을 때, 소리의 질과 화자 유사도에 대한 평가에서 StarGAN-VC가 기존 모델보다 우수한 성능을 보였다.
또한 MCC 시퀀스 및 오디오 샘플 등을 통해 제안된 방법이 실제로 자연스러운 음성을 생성할 수 있음을 확인할 수 있다.

오디오 샘플 링크
http://www.kecl.ntt.co.jp/people/kameoka.hirokazu/Demos/stargan-vc/

참고
https://www.youtube.com/watch?v=aMXLsuU5Uwc&t=1604s

0개의 댓글