
Boo Fullwood, Fabian Monrose
ICASSP 2026
출처: https://ieeexplore.ieee.org/document/11465034
Text-to-mel을 수행하는 모델을 Acoustic model 이라고 알고 있었는데 이 논문에서는 그 기능을 TTS 라고 칭한다. 근데 end-to-end 도 TTS라고 해서 약간 헷갈린다.
모던 synthetic speech 에 공통적으로 나타나는 음성학적 실수들이 있는데 그것이 무엇인지 제시하고 어떻게 측정하였는지 다룬 논문이다.
이 연구를 통해서 합성된 음성인지 검사하는 deepfake detection에 응용할 수 있다.
phonetic analysis 를 통해서 비교함. 항상 사람이 인지할 수 있는 수준은 아니지만 근본적인 오류 노출 가능성.
이 논문에서는 modern speech generator를 large-scale phonetic analysis 로 비교하고
기존에 지적된 문제들 (fricatives, stops) 이외에 새로운 종류의 문제들 (nasals, select vowels) 를 지적한다.
Montreal Forced Aligner (MFA)를 이용하여 음소에 라벨을 함.
time-aligning phones 라는 기법으로 부르는데 forced-alignment system 보다 성능이 좋다고 한다.
MFA 를 사용하면 시작과 끝 타임스탬프가 나오는데 slience, non-speech, 음소에 대한 정보가 나옴.
synthetic phone이 사람이 내는 소리랑 완전히 동일할 필요는 없지만 그 특징들의 distribution 안에는 들어가 있어야 할 것이다.
저자들은 그러한 자연 음성 feature 들의 distribution을 구했고 synthetic speech 에서도 distribution을 구해서 비교했다.
voiced, unvoced 음소에 따라 다른 feature들을 적절하게 사용함.
위와 같은 Feature 들을 사용함.
single speaker group, multi-speaker group 2가지
Single은 LJSpeech corpus 에서 가져왔는데 이 코퍼스는 여성 단일 화자가 nonfiction 을 읽는 코퍼스이다.
16개의 모델을 선정하였고 모델 당 1000 개의 sample을 만들었다.
서브그룹별로 설명
여기까지 단일 화자의 발화로 학습한 모델들임
실제 application 에는 multi-speaker 를 더 많이 씀. VCTK 코퍼스를 기반으로 다중화자 그룹 생성, (VCTK 코퍼스: 110명의 영어 화자의 스피치 데이터 포함)
이 모델들은 speaker 정보에 대해 새로 training이 필요하기 때문에 특정한 모델을 사용
음성 복제 모델에는 입력 음성이 필요하므로 VCTK의 스피커 p311을 참조 스피커로 무작위로 선택함. 이 스피커의 오디오 샘플은 음성 복제 모델을 프롬프트하는 데 사용되며 원본 p311 샘플의 내용은 TTS 모델의 입력으로 사용함
single speaker group 에서는 Vocoder Only(그룹 A) 시스템과 TTS 시스템(그룹 B, C) 간의 성능 차이가 눈에 띄었다.
소스 음성에서 직접 Mel-스펙트로그램을 공급받은 하위 그룹 A 보코더는 최소 및 낮은 크기의 분포 오류를 보여주지만
대조적으로, 동일한 보코더를 사용하는 TTS 시스템은 상당한 음소 레벨, feature 레벨 오류가 존재함.
따라서 오류가 Mel-spectrogram generation 단계에서 생긴다는 것을 추측 가능. (Vocoder 단계 이전에)
좀 길어서 저자가 따로 써준 요점만 번역하면
위의 결과를 바탕으로 synthesis speech detector를 만들려고 할때의 고찰에 대해서 작성함.
이것도 Takeaway만
현재 주류 detector는 음성의 본질적인 특성보다는 음성 합성 시 발생하는 아티팩트 (click sound, 불연속성, 부자연스러운 slience 등)에 의존중인데 이러한 아티팩트는 모델에 따라 달라지는 경우가 많고, 신호 편집 시에 detect 하기가 어렵다.
요약하고 끝.