Reference Encoder와 Style Token Layer를 통해 얻어진 Style embedding을 Tacotron2에 추가한 감정 음성 합성 모델
Transformer 기반의 non-autoregressive TTS 모델, Pre-trained attention alignment가 필요함