
VoXtream / Streaming TTS / 102ms FPL

ASR for game domain

반복 재생되는 음악에서 전환의 부자연스러움을 해결하기 위해, circular padding과 beat alignment를 활용한 training-free 루프 생성 방식인 LoopGen을 제안

자연어로 원하는 소리만 분리해주는 FlowSep 모델 제안. Rectified Flow Matching 기반 생성 방식으로 빠르고 깔끔한 오디오 분리가 가능하다.