[221109 SE(Speaker Embedding)]

·2022년 11월 9일
0

기타 등등

목록 보기
3/3

[Speaker Embedding]

MSTTS: mutispeaker tts
#. git에 올려준 것이 다 speaking embedding이 다 들어가 있음
#. se는 인구가 nvidia에 있는 NeMo 를 가져와서 다 뽑아놈!

  • SE 구하는 법?

    • ex). 128차원? 벡터? 뉴럴 네트워크 최소화
      결론은 로스 최소화 (정답과 예측한 것 가깝게 만들기)
      즉 같은 스피커끼리의 거리를 가장 가깝게 최소화!

    • spk1_wav1, spk1_wav2/ spk2_wav1, wav2
      같은 스피커의 웨이브 2개씩 (결국 두개의 벡터가 비슷한것에 겹치게됨)
      그 선의 각도가 최소화 (그 각도는 코싸인 시뮬러리티라고 부름)

  • 즉 임베딩이란? '스피커의 특정한 정보'를 말함

    • 임베딩이란 벡터공간이다(가상의 공간), 유사도? [1,2,3,4]
    • 어떠한 의미 정보를 포함하고 있는 벡터이다!
    • 그래서 바뀐 코드에서는 tts input에 임베딩을 같이 넣어버린다!
    • '화자'를 파악하게 하는게 목적이다.
      : 4명, 100명은 성공했지만 4000명은 실패함 웨이브가 쓰레기라서?
      그렇기 때문에 ASR을 통과한 text를 전사 대신 사용한다 !

< 목표는? >
1. text를 뽑는 과정 2. 데이터가 뽑히면 3. 멀티 스피커 돌려본다!

< 통상 TTS는? >
TTS -> FA, ACCEL, VOC
1). FA -> se 넣음!
넣은 이유: FA의 목적은 음소별 길이 예측이라고 생각했는데 사람의 특성이 들어감
2). AC -> se 넣음!
그사람에 해당하는 mel이 나와야하므로
3). VOC -> 모든 화자의 목소리 mel을 넣어서 모든 화자가 나오게 함
그래서 따로 se는 거의 넣지 않음

profile
Hakuna Matata

0개의 댓글

관련 채용 정보