옳은 운율적 스타일에 대한 객관적인 측정법이 없다. → 모델링과 평가가 어렵다.
표현이 매우 역동적인 범위의 목소리는 모델링하기 힘들다.
→ 대부분의 TTS 모델은 end-to-end 시스템을 사용하고 있고 입력 데이터의 평균적인 운율적 분포를 학습하기 때문에 특히 긴 구절에 대해서는 표현을 적게 생성해낸다.
특정 토큰들을 텍스트 인코더에 조건으로 직접 줄 수 있음
→ Reference 신호 없이 제어하고 조작할 수 있음
Style transfer를 위해 다른 오디오 신호를 입력할 수 있다 (Transcript와 생성할 텍스트가 같을 필요가 없음)