
반복 재생되는 음악에서 전환의 부자연스러움을 해결하기 위해, circular padding과 beat alignment를 활용한 training-free 루프 생성 방식인 LoopGen을 제안

자연어로 원하는 소리만 분리해주는 FlowSep 모델 제안. Rectified Flow Matching 기반 생성 방식으로 빠르고 깔끔한 오디오 분리가 가능하다.

ASR for game domain

VoXtream / Streaming TTS / 102ms FPL

moshi - temporal and depth transformer
GLASS Flows: Transition Sampling for Alignment of Flow and Diffusion

출처: https://research.samsung.com/blog/FSPEN-AN-ULTRA-LIGHTWEIGHT-NETWORK-FOR-REAL-TIME-SPEECH-ENAHNCMENT 최근에 speech enhancement 분야를 보고 있는 중인데, 경량화된 모

DNS 챌린지와 URGENT 챌린지 소개

#streaming_decoder(≈vocoder)

qwen3-tts
kaldi 세팅하기..
https://transformer-circuits.pub/2026/emotions/index.html 작성중..

시작하기 전에... 용어를 헷갈려 하실까봐 spectrum, spectrogram, mel spectrogram, mfcc 의 차이를 간단히 정리하자면 이와 같습니다. 이미지 출처 waveform → (pre-emphasis) → STFT(framing(hamming window, overlap, hop size) → 각 프레임에 DFT(실제로는 연산 ...
https://arxiv.org/abs/2306.00978 작성중..

정리중