
장점
단점
- 일단 이 논문은 스피치의 감정을 바꾸는 태스크를 스피치의 언어를 바꾸는 문제처럼 해결한 논문.
- 모델을 보자면, speech의 representation 추출은 HuBERT로
- HuBert는 text를 거치지 않은 speech signal로 ssl 학습, 비언어적 요소 다 들어있음
- HuBert도 speech representation을 discrete하게 만들기 때문에 language랑 비슷한 특성을 가지게 함.
- 거기에 추가할 감정과 personal한 infomation 등을 추가한 후에 hifi gan이라는 vocoder sota model을 이용하여 speech synthesis.
- 이 논문의 novelty는 textless로 모델을 학습한 것과 HuBERT를 이용해서 speech representation을 discrete하게 해서 Language와 비슷한 특성을 가지게 했다는 것.