화자 인식voice agent wake음성을 input으로 받아 디바이스 제어명령을 실행한 결과 음성 합성을 통해 출력TaskSoundSpeech ClassificationAuto-taggingSpeechSpeech-to-Text(음성 인식; STT) = ASR(Aut