A LARGE-SCALE PHONETIC ANALYSIS OF SPEECH REPRODUCTION IN MODERN SPEECH GENERATORS

해질녘·2026년 4월 30일

Speech Processing

목록 보기
7/7

MIND YOUR [m]S, CROSS YOUR [t]S: A LARGE-SCALE PHONETIC ANALYSIS OF SPEECH REPRODUCTION IN MODERN SPEECH GENERATORS

Boo Fullwood, Fabian Monrose

ICASSP 2026

출처: https://ieeexplore.ieee.org/document/11465034


읽기 전에

  • 기초 Phonetics - 생략
  • Modern TTS 모델의 구조
    • two-stage 방식
      • Acoustic model (Text-to-mel) -> Vocoder (Mel-to-Waveform)
      • 멜 스펙트로그램이라는 중간 단계가 한번 나옴
    • end-to-end
      • text to waveform

Text-to-mel을 수행하는 모델을 Acoustic model 이라고 알고 있었는데 이 논문에서는 그 기능을 TTS 라고 칭한다. 근데 end-to-end 도 TTS라고 해서 약간 헷갈린다.


Abstract

모던 synthetic speech 에 공통적으로 나타나는 음성학적 실수들이 있는데 그것이 무엇인지 제시하고 어떻게 측정하였는지 다룬 논문이다.

  • empirical evaluations on 23 contemporary generator config (단일화자,다중화자 데이터셋 기반)
  • 모든 모델이 pitch 정보는 정확하게 재생산하였다.
  • 몇가지 phone 음소에 대해서 spectral 적으로 오류가 존재한다.
    • nasals (like [m] in summer) 비음
    • obstruents (like [k] in night) 폐쇄음
      • stops, fricatives
  • 이 오류들은 TTS의 단계 중 초기인 text-to-spectrogram 단계부터 존재한다.

이 연구를 통해서 합성된 음성인지 검사하는 deepfake detection에 응용할 수 있다.

1. Introduction

phonetic analysis 를 통해서 비교함. 항상 사람이 인지할 수 있는 수준은 아니지만 근본적인 오류 노출 가능성.

이 논문에서는 modern speech generator를 large-scale phonetic analysis 로 비교하고

기존에 지적된 문제들 (fricatives, stops) 이외에 새로운 종류의 문제들 (nasals, select vowels) 를 지적한다.

2. Phonetic Analysis

Montreal Forced Aligner (MFA)를 이용하여 음소에 라벨을 함.

time-aligning phones 라는 기법으로 부르는데 forced-alignment system 보다 성능이 좋다고 한다.

MFA 를 사용하면 시작과 끝 타임스탬프가 나오는데 slience, non-speech, 음소에 대한 정보가 나옴.

synthetic phone이 사람이 내는 소리랑 완전히 동일할 필요는 없지만 그 특징들의 distribution 안에는 들어가 있어야 할 것이다.

저자들은 그러한 자연 음성 feature 들의 distribution을 구했고 synthetic speech 에서도 distribution을 구해서 비교했다.

2.1 Feature Selection

voiced, unvoced 음소에 따라 다른 feature들을 적절하게 사용함.

  • RMS Energy
  • F0
  • R1, R2
    • vocal tract 의 resonance area 중에서 첫번째, 두번째 값
  • Zero-Crossing Rate
  • Spectral Centroid
  • Spectal Bandwidth
  • Spectral Tilt
  • Harmonicity-to-Noise

위와 같은 Feature 들을 사용함.

2.2 Statistical Analysis

3. DATASET GENERATION

single speaker group, multi-speaker group 2가지

Single은 LJSpeech corpus 에서 가져왔는데 이 코퍼스는 여성 단일 화자가 nonfiction 을 읽는 코퍼스이다.

16개의 모델을 선정하였고 모델 당 1000 개의 sample을 만들었다.

서브그룹별로 설명

  • Subgroup A [Vocoder Evaluation]: 7 SOTA vocoders - Mel-spectrogram에서 직접 speech를 생성하는 보코더. 이중에서는 HiFiGAN을 가장 널리 쓰이는 베이스라인으로 선정.
    • MelGAN, MelGAN Large, FB MelGAN, MB MelGAN, WaveGlow, Parallel WaveGAN, HiFiGAN
  • Subgroup B [TTS Evaluation]: TTS 시스템인데 이것들은 Mel-spectrogram을 생성하는 것까지만 하고 거기에서 음성 생성은 HiFiGAN으로 처리
    • Tacotron2, NeuralHMM, Overflow, SpeedySpeech, VITSNeon
  • Subgroup C [Training Evaluation]: VITS 모델을 이용하였고 아래에 나열된 것들은 학습된 데이터 차이
    • VITS-LJSpeech, VITS-Blizzard, VITS-SAM, VITS-VCTK

여기까지 단일 화자의 발화로 학습한 모델들임

실제 application 에는 multi-speaker 를 더 많이 씀. VCTK 코퍼스를 기반으로 다중화자 그룹 생성, (VCTK 코퍼스: 110명의 영어 화자의 스피치 데이터 포함)

이 모델들은 speaker 정보에 대해 새로 training이 필요하기 때문에 특정한 모델을 사용

  • Subgroup D [TTS]
    • YourTTS, XTTSv1.1, XTTSv2
  • Subgroup E [Voice Cloning]
    • Openvoice V1, Openvoice V2, kNNVC, FreeVC

음성 복제 모델에는 입력 음성이 필요하므로 VCTK의 스피커 p311을 참조 스피커로 무작위로 선택함. 이 스피커의 오디오 샘플은 음성 복제 모델을 프롬프트하는 데 사용되며 원본 p311 샘플의 내용은 TTS 모델의 입력으로 사용함

4. RESULTS

single speaker group 에서는 Vocoder Only(그룹 A) 시스템과 TTS 시스템(그룹 B, C) 간의 성능 차이가 눈에 띄었다.

소스 음성에서 직접 Mel-스펙트로그램을 공급받은 하위 그룹 A 보코더는 최소 및 낮은 크기의 분포 오류를 보여주지만

대조적으로, 동일한 보코더를 사용하는 TTS 시스템은 상당한 음소 레벨, feature 레벨 오류가 존재함.

따라서 오류가 Mel-spectrogram generation 단계에서 생긴다는 것을 추측 가능. (Vocoder 단계 이전에)

좀 길어서 저자가 따로 써준 요점만 번역하면

  • 대부분의 phonetic 오류들은 TTS (Text to Mel-Spectrogram) 단계에서 발생한다. 이 단계에서 obstruent phone들을 지속적으로 잘못 표현한다. 그리고 nasals와 tightly constrained vowels도 오류가 자주 발생.
  • modern end-to-end TTS 시스템들은 여전히 obstruent 음소를 만드는데 문제가 있다. 그러나 pitch 관련 오류는 대부분 제거되었음. (이전 연구에서는 pitch 관련 오류를 지적한듯?)
  • Voice Cloning 모델들은 모든 feature와 phone 에 대해서 탁월한 성능을 발휘함.

5. ALIGNMENT OF DISTRIBUTIONAL FEATURES WITH DETECTOR ATTENTION

위의 결과를 바탕으로 synthesis speech detector를 만들려고 할때의 고찰에 대해서 작성함.

이것도 Takeaway만

  • 핵심 phone에 대해서 집중하면 Detection attention을 크게 향상시킬 수 있다.

현재 주류 detector는 음성의 본질적인 특성보다는 음성 합성 시 발생하는 아티팩트 (click sound, 불연속성, 부자연스러운 slience 등)에 의존중인데 이러한 아티팩트는 모델에 따라 달라지는 경우가 많고, 신호 편집 시에 detect 하기가 어렵다.

7. CONCLUSION

요약하고 끝.


메모

  • VITS
    • Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
    • 2021년 논문인데 end-to-end

0개의 댓글