MSTTS: mutispeaker tts
#. git에 올려준 것이 다 speaking embedding이 다 들어가 있음
#. se는 인구가 nvidia에 있는 NeMo 를 가져와서 다 뽑아놈!
SE 구하는 법?
ex). 128차원? 벡터? 뉴럴 네트워크 최소화
결론은 로스 최소화 (정답과 예측한 것 가깝게 만들기)
즉 같은 스피커끼리의 거리를 가장 가깝게 최소화!
spk1_wav1, spk1_wav2/ spk2_wav1, wav2
같은 스피커의 웨이브 2개씩 (결국 두개의 벡터가 비슷한것에 겹치게됨)
그 선의 각도가 최소화 (그 각도는 코싸인 시뮬러리티라고 부름)
즉 임베딩이란? '스피커의 특정한 정보'를 말함
< 목표는? >
1. text를 뽑는 과정 2. 데이터가 뽑히면 3. 멀티 스피커 돌려본다!
< 통상 TTS는? >
TTS -> FA, ACCEL, VOC
1). FA -> se 넣음!
넣은 이유: FA의 목적은 음소별 길이 예측이라고 생각했는데 사람의 특성이 들어감
2). AC -> se 넣음!
그사람에 해당하는 mel이 나와야하므로
3). VOC -> 모든 화자의 목소리 mel을 넣어서 모든 화자가 나오게 함
그래서 따로 se는 거의 넣지 않음