작성중...

#Streaming_TTS
텍스트를 자연스러운 음성으로 변환하는 기술, 즉 TTS(Text-to-Speech)는 AGI(범용 인공지능)로 가는 길에서 핵심 역량 중 하나로 꼽힙니다. 최근 몇 년간 대규모 데이터셋으로 학습된 신경망 기반 TTS 모델들은 불과 몇 초의 참조 음성만으로도 고품질 음성을 합성해내는 놀라운 능력을 보여주고 있습니다.

Qwen3-TTS는 Qwen 시리즈에서 최초로 선보이는 TTS 모델입니다. 이 논문은 단순히 목소리를 합성하는 수준을 넘어, 다국어 지원(10개 언어), 3초 음성 클로닝, 자연어 명령을 통한 세밀한 음성 제어, 초저지연 스트리밍이라는 네 가지 핵심 역량을 하나의 프레임워크에 통합한 모델 패밀리를 제안합니다. 그리고 500만 시간이 넘는 음성 데이터로 학습되었다는 점에서, 지금까지 공개된 TTS 모델 중 가장 대규모 학습 기반 중 하나입니다.
최근 TTS 분야에서는 이산적 음성 토큰화(discrete speech tokenization)와 자기회귀 언어 모델링(autoregressive language modeling)의 결합이 큰 주목을 받고 있습니다. 이 방식은 음성 신호를 숫자 코드 시퀀스로 변환한 뒤, 마치 텍스트를 생성하듯 다음 코드를 예측하는 방식으로 음성을 합성합니다. 기존 연속적(continuous) 표현 방식 대비 안정성이 크게 개선되면서도 자연스러움과 인간 유사성을 유지하는 장점이 있습니다. Qwen3-TTS는 이 흐름 위에서, 음성 특징이나 텍스트 지시에 따른 세밀한 운율·스타일 제어까지 가능하게 하여 가상 비서, 자동 콘텐츠 생성 등 다양한 응용 분야의 길을 열어줍니다.
현재 TTS 기술은 크게 세 가지 도전 과제를 안고 있습니다.
첫째, 의미와 음향 사이의 트레이드오프 문제입니다. 음성을 이산 토큰으로 변환하는 토크나이저 설계에서, 순수한 의미 토크나이저(semantic tokenizer)는 "무슨 말인지"는 잘 포착하지만 음색이나 감정 같은 표현력이 부족합니다. 반대로 순수한 음향 토크나이저(acoustic tokenizer)는 너무 많은 저수준 디테일을 담아서 언어 모델이 다루기 어렵고, 긴 시퀀스에서 오류가 누적됩니다.
토크나이저란? 연속적인 음성 신호를 이산적인(discrete) 토큰(숫자 코드 시퀀스)으로 변환해주는 모듈입니다. 텍스트를 단어나 서브워드 단위로 쪼개는 것처럼, 음성도 일정한 단위로 쪼개서 언어 모델이 처리할 수 있는 형태로 만드는 것이죠.
둘째, 실시간 스트리밍의 어려움입니다. 기존 모델들은 텍스트를 전부 처리한 후에 음성을 생성하거나, 스트리밍을 지원하더라도 첫 패킷 지연(first-packet latency)이 높아 실시간 대화형 응용에 부적합합니다. 특히 DiT(Diffusion Transformer) 같은 복잡한 디코더를 쓰면 품질은 좋지만 지연이 커지는 딜레마가 있습니다.
셋째, 제어 가능성과 다국어 지원의 통합입니다. 음성 클로닝, 음성 설계(자연어로 새 목소리 생성), 스타일 편집, 다국어 합성을 하나의 프레임워크에서 동시에 지원하는 모델은 거의 없었습니다.
이 문제들에 대한 Qwen3-TTS의 해법은 이중 토크나이저 + 이중 트랙 LM 아키텍처라는 설계 철학으로 요약됩니다.
1) 두 종류의 토크나이저를 동시 개발합니다. 의미와 음향 정보를 통합한 25Hz 단일 코드북 토크나이저와, 초저지연 스트리밍에 최적화된 12Hz 다중 코드북 토크나이저를 각각 개발하여 응용 시나리오에 따라 선택할 수 있게 합니다.
2) 이중 트랙(Dual-Track) LM 아키텍처를 채택합니다. 텍스트 토큰과 음향 토큰을 채널 축으로 연결하여, 텍스트가 들어올 때마다 즉시 음향 토큰을 예측하는 스트리밍 구조를 구현합니다. 다중 코드북의 경우 MTP(Multi-Token Prediction) 모듈로 모든 잔여 코드북을 동시 예측하여 지연을 최소화합니다.
3) ChatML 형식 기반의 통합된 제어 체계를 구축합니다. 음성 클로닝, 음성 설계, 스타일 편집을 모두 자연어 지시로 통합하며, 확률적으로 활성화되는 사고 패턴(thinking pattern)을 도입하여 복잡한 지시에 대한 추종 능력을 강화합니다.
4) 대규모 데이터와 체계적 학습 전략을 결합합니다. 500만 시간 이상의 다국어 음성 데이터로 3단계 사전학습을 수행한 뒤, DPO와 GSPO를 포함한 3단계 후학습으로 인간 선호도에 맞추어 품질과 안정성을 끌어올립니다.
Qwen3-TTS는 단일 모델이 아니라 10개의 모델 변형으로 구성된 패밀리입니다. 이 모델들은 토크나이저(12Hz / 25Hz), 모델 크기(0.6B / 1.7B), 그리고 기능 특화(Base / VoiceDesign / VoiceEditing / CustomVoice) 세 축으로 분류됩니다.


TTS 시스템의 핵심은 음성을 어떻게 표현하느냐에 있습니다. Qwen3-TTS는 이를 위해 서로 다른 설계 철학을 가진 두 가지 토크나이저를 개발했습니다.
이 토크나이저는 기존의 Qwen2-Audio 모델을 기반으로 만들어졌으며, 초당 25개의 토큰을 생성하는 단일 코드북(single-codebook) 방식입니다. 코드북 크기는 32,768입니다. 학습은 두 단계로 진행됩니다.
Stage 1 (ASR 지도학습): Qwen2-Audio를 자동 음성 인식(ASR) 과제에 대해 추가 사전학습합니다. 이때 오디오 인코더 중간에 리샘플링(resampling) 레이어와 벡터 양자화(VQ) 레이어를 삽입합니다. 이 과정을 통해 음성에서 "무슨 말을 하는지"라는 의미 정보가 토큰에 잘 담기게 됩니다.
Stage 2 (음향 정보 주입): 전체 모델을 파인 튜닝하면서 컨볼루션 기반 멜-스펙트로그램(mel-spectrogram) 디코더를 추가합니다. 이 디코더는 오디오 토큰으로부터 멜-스펙트로그램을 복원하도록 학습되며, 이를 통해 토큰에 음향적(acoustic) 정보도 함께 주입됩니다. 의미적 충실도(semantic fidelity)와 음향적 풍부함(acoustic richness) 사이의 의도적인 트레이드오프를 반영한 설계입니다.
코드북(Codebook)과 벡터 양자화(VQ)란? 코드북은 일종의 "음성 사전"입니다. 연속적인 음성 신호의 한 프레임(짧은 시간 조각)을 가장 가까운 "대표 벡터"로 매핑하는 과정을 벡터 양자화(VQ)라고 하며, 이 대표 벡터들의 모음이 코드북입니다. 단일 코드북은 하나의 사전만 쓰고, 다중 코드북(RVQ)은 첫 번째 사전에서 대략적으로 표현한 뒤 남은 오차를 두 번째, 세 번째 사전으로 점진 보정하는 방식입니다.
멜-스펙트로그램이란? 음성 신호를 시간-주파수 영역에서 표현한 2D 이미지 같은 것입니다. 가로축은 시간, 세로축은 주파수(인간 청각 특성을 반영한 멜 스케일), 각 점의 밝기는 해당 시간-주파수의 에너지 크기를 나타냅니다.
스트리밍 디토크나이저: 블록 단위 DiT + BigVGAN
생성된 코드 시퀀스를 실제 음성 파형으로 바꾸기 위해, DiT(Diffusion Transformer)와 Flow Matching을 결합한 방식을 사용합니다.
스트리밍을 지원하기 위해, 인접한 코드들을 고정 길이의 블록으로 묶고 슬라이딩 윈도우 블록 어텐션(sliding-window block attention)을 적용합니다. DiT의 수용 범위(receptive field)는 총 4블록으로 제한됩니다: 현재 블록 + 3블록 과거(lookback) + 1블록 미래(lookahead). 이렇게 해야 무한히 긴 시퀀스에서도 메모리가 폭발하지 않으면서 충분한 맥락을 유지할 수 있습니다. DiT가 생성한 멜-스펙트로그램은 수정된 BigVGAN 보코더를 통해 최종 음성 파형으로 변환되며, BigVGAN에도 동일한 청크 방식 처리를 적용하여 스트리밍 파형 합성을 지원합니다.
Flow Matching이란? 확산 모델(Diffusion Model)의 변형으로, 노이즈에서 데이터로의 변환 경로를 직선에 가깝게 학습시켜 더 효율적인 생성을 가능하게 하는 기법입니다.
구체적인 스트리밍 동작 방식: 청크 크기 8 설정 기준으로, LM이 16개 토큰을 생성해야 DiT가 첫 8-토큰 멜 청크를 만들 수 있습니다(1블록 lookahead 때문). 25Hz 토큰 속도에서 토큰 1개 = 40ms이므로, 한 패킷 = 320ms의 멜 콘텐츠입니다. BigVGAN 보코더는 추가로 130ms의 우측 컨텍스트를 필요로 합니다. 따라서 첫 패킷에는 약 190ms 분량의 오디오가 포함되며, 정상 상태 스트리밍에서는 LM이 8개 토큰을 생성할 때마다 320ms 분량의 오디오 패킷이 합성됩니다.
이 토크나이저는 Mimi 아키텍처의 의미-음향 분리 양자화(semantic-acoustic disentangled quantization) 전략에서 영감을 받았습니다. 초당 12.5개의 토큰을 생성하며, 코드북 크기 2,048, 총 16개 레이어로 구성됩니다. 음성을 두 개의 이산 코드 시퀀스로 분해합니다:
학습은 GAN(Generative Adversarial Network) 기반 프레임워크를 사용합니다. 생성기(generator)는 원시 파형에서 직접 특징을 추출하고 양자화하며, 판별기(discriminator)는 복원된 음성의 자연스러움과 충실도를 개선합니다. 추가로 다중 스케일 멜-스펙트로그램 재구성 손실(multi-scale mel-spectrogram reconstruction loss)을 사용하여 시간-주파수 일관성을 확보합니다.
스트리밍 지원의 핵심 — 완전 인과적(Causal) 설계: 인코더와 디코더 모두 미래 프레임을 전혀 참조하지 않고 현재까지의 입력만으로 토큰을 생성하고 음성을 복원합니다. 이것이 25Hz 토크나이저(1블록 lookahead 필요)와의 결정적 차이점입니다.
인과적(Causal)이란? 시간 순서상 미래 정보를 사용하지 않는 설계입니다. 현재 시점 t에서의 출력은 시점 1, 2, ..., t까지의 입력에만 의존합니다. 미래 정보 없이 즉시 처리할 수 있어 스트리밍에 필수적입니다.
12Hz의 스트리밍 동작: 순수 좌측 컨텍스트(left-context only) 코덱 디코더를 사용하므로, 필요한 토큰이 생성되자마자 즉시 파형을 방출할 수 있습니다. 12.5Hz에서 토큰 1개 = 80ms 분량의 오디오. 스케줄링 오버헤드를 줄이기 위해 4개 토큰 = 1 음성 패킷(320ms)으로 정의합니다. 이 경량 설계 덕분에 높은 동시 접속(concurrency) 환경에서도 낮은 RTF를 유지합니다.

Qwen3-TTS는 Qwen3 LM 패밀리를 백본으로 활용합니다. 전체 구조는 다음과 같습니다:
이것은 "텍스트를 먼저 다 읽고, 그 다음 음성을 생성한다"는 순차적 방식이 아니라, 텍스트가 들어올 때마다 즉시 음성이 나가는 진정한 스트리밍 구조입니다.
25Hz 변형은 단일 수준(single-level) 음성 토큰을 사용합니다. 백본이 텍스트 특징과 이전 음성 토큰을 통합한 후, 선형 헤드(linear head)를 통해 현재 음성 토큰을 예측합니다. 생성된 시퀀스는 청크 단위 DiT 모듈에 의해 고충실도 파형으로 복원됩니다.
12Hz 변형은 RVQ 토큰(16개 코드북 레이어)을 다루기 때문에 더 복잡한 예측 구조가 필요합니다. 계층적 예측 체계(hierarchical prediction scheme)를 채택합니다:
이 전략은 복잡한 음향 세부 사항을 포착하면서도, 단일 프레임 즉시 생성(single-frame instant generation)을 가능하게 하여 지연을 최소화합니다. MTP는 원래 LLM에서 다음 토큰 여러 개를 동시에 예측하는 기법으로 제안되었는데, 여기서는 다중 코드북의 여러 레이어를 동시에 예측하는 데 활용됩니다. 이를 통해 음성 일관성(vocal consistency)과 표현력(expressivity)을 크게 향상시킵니다.
모든 데이터는 ChatML 형식으로 포맷팅되어 입력 표준화와 제어 가능한 음성 생성을 지원합니다.
S1 — 일반 단계(General Stage): 500만 시간 이상의 다국어 음성 데이터로 학습합니다. 이 단계에서 다국어 텍스트 표현에서 음성으로의 단조 매핑(monotonic mapping)을 확립하고, 모델의 일반적인 능력을 구축합니다.
단조 매핑이란? 텍스트의 순서와 음성의 순서가 일관되게 대응되도록 하는 것입니다. "안녕하세요"의 "안" → "녕" → "하" → "세" → "요" 순서가 음성에서도 그대로 유지되도록 학습한다는 의미입니다.
S2 — 고품질 단계(High-Quality Stage): 전용 파이프라인으로 데이터 품질을 계층화하고, 고품질 데이터만으로 연속 사전학습(CPT)을 수행합니다. 이 단계는 S1에서 노이즈 데이터로 인해 발생한 환각(hallucination) — 원래 텍스트에 없는 내용을 말하거나, 있는 내용을 빼먹는 현상 — 을 완화하고 생성 음성의 품질을 크게 향상시킵니다.
S3 — 장문맥 단계(Long-Context Stage): 최대 토큰 길이를 8,192 → 32,768로 확장하고, 학습 데이터에서 긴 음성 샘플의 비율을 높입니다. 이를 통해 모델이 긴 입력이나 복잡한 입력을 처리하고, 맥락에 적절한 음성을 생성하는 능력이 향상됩니다.
사전학습이 끝난 모델을 더 인간적이고 안정적으로 만들기 위한 3단계 후학습이 진행됩니다.
1단계 — DPO(Direct Preference Optimization): 인간 피드백을 기반으로 다국어 음성 샘플의 선호도 쌍(preference pair)을 구성합니다. "이 두 음성 중 어느 것이 더 자연스러운가?"라는 인간의 판단을 모델에 반영하는 것입니다. DPO는 기존 RLHF와 달리 별도의 보상 모델 없이 직접 정책을 최적화할 수 있어 더 안정적입니다.
2단계 — 규칙 기반 보상 + GSPO: 규칙 기반 보상(rule-based rewards)을 사용하고 GSPO 알고리즘을 통해 모델의 능력과 안정성을 과제 전반에 걸쳐 종합적으로 향상시킵니다.
3단계 — 경량 화자 파인 튜닝: 베이스 모델 위에 경량(lightweight) 화자 파인 튜닝을 수행하여, 특정 목소리를 채택하면서도 자연스러움, 표현력, 제어 가능성을 더욱 개선합니다.
Qwen3-TTS는 두 가지 방식으로 목표 음성을 클로닝합니다:
Qwen3 텍스트 모델 기반으로 구축되었기 때문에, 강력한 텍스트 이해 능력을 상속받습니다. "따뜻하고 신뢰감 있는 중저음의 남성 목소리"와 같은 자연어 설명을 제공하면, 모델이 해당 설명에 맞는 완전히 새로운 목소리를 생성할 수 있습니다. 복잡한 설명에 대한 지시 따르기 능력을 향상시키기 위해, 학습 중에 확률적으로 활성화되는 사고 패턴(probabilistically activated thinking pattern)을 도입했습니다.
음성 설계 능력을 기반으로, 사전 정의된 목소리에 원하는 스타일을 적용하는 것도 가능합니다. 예를 들어, 특정 화자의 목소리를 유지하면서 "뉴스 앵커 톤으로 전달해 주세요"와 같은 스타일 변경 지시를 따를 수 있습니다.
First-Packet Latency: 입력을 받은 후 첫 번째 오디오 조각이 나올 때까지의 시간. 작을수록 사용자가 "바로 대답한다"고 느낍니다.
RTF(Real-Time Factor): 1초 분량의 오디오를 생성하는 데 걸리는 실제 시간의 비율. RTF < 1이면 실시간보다 빠르게 생성 가능합니다.
모든 수치는 vLLM 엔진(V0 백엔드)에서 torch.compile + CUDA Graph 가속을 적용하여 단일 컴퓨팅 자원에서 측정한 엔드투엔드 지연입니다.

핵심 관찰:
토크나이저 평가:
음성 생성 평가 — 6가지 시나리오:
| 시나리오 | 벤치마크 | 주요 지표 | 비교 대상 |
|---|---|---|---|
| 제로샷 음성 생성 | Seed-TTS test set | WER↓ | Seed-TTS, CosyVoice 3, MiniMax 등 |
| 다국어 음성 생성 | TTS multilingual test set | WER↓, SIM↑ | MiniMax-Speech, ElevenLabs |
| 교차 언어 음성 생성 | CV3-Eval | WER/CER↓ | CosyVoice 시리즈 |
| 제어 가능한 음성 생성 | InstructTTSEval | APS↑, DSD↑, RP↑ | GPT-4o-mini-tts, Gemini, Hume 등 |
| 대상 화자 다국어 생성 | TTS multilingual test set | WER↓ | GPT-4o-Audio-Preview |
| 장문 음성 생성 | 내부 데이터셋 (100개 × 2언어) | WER↓ | Higgs-Audio-v2, VibeVoice, VoxCPM |
지표 설명:



핵심 발견 3가지:
1. 다양한 음향 데이터로의 사전학습과 CPT 덕분에 다국어에서 고르게 강건한 성능
2. 12Hz 변형이 25Hz보다 일관되게 더 낮은 WER → 더 거친 시간 해상도가 장기 의존성 모델링에 유리
3. 0.6B → 1.7B 스케일링이 일관된 성능 향상 제공
콘텐츠 일관성 (WER↓) — 주요 결과 발췌:

화자 유사도 (SIM↑): 모든 10개 언어에서 최고 화자 유사도 달성. MiniMax-Speech와 ElevenLabs를 전 언어에서 일관 능가.


Aiden Voice에 파인 튜닝한 Qwen3-TTS vs GPT-4o-Audio-Preview(Ballad Voice):

흥미로운 발견: 장문에서는 25Hz > 12Hz. 의미 토큰이 장기 시퀀스 안정성 유지에 유리할 수 있음 → 두 토크나이저가 서로 다른 강점을 가진다는 증거.
두 토크나이저의 상보적 관계: 이 논문의 핵심 설계 결정 중 하나는 단일 토크나이저를 고르는 대신 두 개를 모두 개발하고 공개한 것입니다.
스케일의 힘: 500만 시간의 학습 데이터가 다국어 성능, 교차 언어 일반화, 제로샷 클로닝의 기반. 단일 언어 파인 튜닝만으로도 10개 언어로 일반화되는 것은 사전학습의 다국어 표현 능력이 충분히 강력하다는 증거입니다.
LLM 기반 TTS의 방향성: 음성 합성을 언어 모델링 과제로 프레이밍하고, ChatML 형식, 자연어 지시, 확률적 사고 패턴 등을 통해 LLM의 텍스트 이해·생성 능력을 음성 도메인에 전이. TTS와 LLM이 궁극적으로 하나의 통합 모델로 수렴할 것이라는 업계 방향성과 맞닿아 있습니다.