진폭 변조 스펙트럼 분석

Sujin Koo·2026년 3월 8일

출처: https://www.youtube.com/watch?v=7g1BCQk226A

우리가 일상에서 듣는 음성은 단순히 소리의 높낮이나 크기만으로 이루어져 있지 않다. 사람의 말소리에는 언어적 정보(무슨 말을 하는지)뿐 아니라 비언어적 정보(감정, 건강 상태, 환경 등)까지 담겨 있다. 이러한 다양한 정보를 더 깊이 이해하기 위해 연구자들은 오랫동안 음성 신호의 구조를 분석해 왔다. 그중 하나가 바로 진폭 변조 스펙트럼 분석(Amplitude Modulation Spectral Analysis)이다.

사람의 음성을 자세히 살펴보면, 소리의 세부적인 진동 위에 천천히 변하는 큰 흐름이 존재한다. 이를 엔벨로프(envelope)라고 부른다.

1930년대 연구자 Homer Dudley는 이 느린 변화를 통해서도 음성을 어느 정도 이해할 수 있다는 사실을 보여주었다. 이후 연구들은 다음과 같은 중요한 사실을 발견했다.

16Hz 이하의 느린 변조가 음성 이해에 매우 중요하다. (그래서 보통 speech 에 집중한 연구들은 16k waveform 을 많이 사용하며, 이 외의 여러 소리를 다루는 audio, sound 연구들을 48k waveform 을 많이 사용한다.)
특히 2–16Hz 범위가 언어 이해에 핵심적인 영역이다.
약 4Hz는 말의 음절(syllable) 리듬과 관련된 중요한 주파수이다.

즉, 우리가 말을 들을 때 실제로 중요한 것은 단순한 음파가 아니라 시간에 따라 어떻게 천천히 변화하는지라는 패턴이다.

진폭 변조 스펙트럼

진폭 변조 스펙트럼은 쉽게 말해 다음 질문에 답하는 도구다.

“각 주파수 성분이 시간에 따라 얼마나 빠르게 변하는가?”

이를 이해하기 위해 보통 다음과 같은 과정을 거친다.

먼저 음성을 스펙트로그램(spectrogram)으로 변환한다.
→ 시간과 주파수에 따른 소리의 에너지를 나타낸다.
이후 각 주파수 대역에서 시간 방향으로 또 한 번 분석을 한다.
그러면 각 주파수 성분이 얼마나 빠르게 또는 느리게 변하는지를 나타내는 변조 스펙트럼을 얻을 수 있다.

연구에 따르면 깨끗한 음성의 대부분의 에너지는 1~16Hz 범위의 변조에 존재한다. 이 분석 방법은 신호 처리를 통해 노이즈 제거 후 다시 음성을 복원하는 것도 가능하다는 장점이 있다.

또 다른 접근법은 사람의 청각 시스템을 모방하는 방식이다.

이 방법은 다음과 같은 구조를 가진다.

코클리아(달팽이관) 모델을 사용해 음성을 여러 주파수 대역으로 분해한다.
각 대역에서 엔벨로프(진폭 변화)를 추출한다.
이후 변조 필터 뱅크를 적용해 변조 패턴을 분석한다.

이 과정을 거치면 23 × 8 형태의 특징 표현(feature representation)이 만들어진다.

이 표현을 보면 놀라운 사실을 확인할 수 있다.

깨끗한 음성
→ 대부분의 에너지가 16Hz 이하, 특히 4Hz 근처에 집중됨
환경 영향(예: 잔향)
→ 다른 변조 대역에서 특징적으로 나타남

즉, 음성과 환경을 분리해서 분석할 수 있다는 것이다.

진폭 변조 스펙트럼 분석은 단순히 음성을 이해하는 도구에 그치지 않는다. 다양한 분야에서 응용되고 있다.

1. 음성 품질 평가

변조 스펙트럼에서 특정 에너지 비율을 계산하면
참조 음성 없이도 음성 품질을 예측할 수 있다.

예를 들어

Speech to Reverberation Modulation Energy Ratio

같은 지표를 사용하면 음성의 명료도와 품질을 추정할 수 있다.

2. 환경 분석

변조 스펙트럼은 실내 음향 환경을 분석하는 데에도 사용된다.

예를 들어 다음과 같은 정보를 추정할 수 있다.

잔향 시간 (Reverberation time)
직접음 대비 반사음 비율 (Direct-to-Reverb Ratio)

즉, 음성만으로도 공간의 특성을 추정할 수 있다.

3. 감정 및 건강 상태 분석

흥미롭게도 감정이나 질병 역시 변조 패턴에 영향을 준다.

예를 들어 연구에서는

감정이 담긴 음성
병리적 음성 (예: COVID 관련 음성 변화)

이 서로 다른 변조 스펙트럼 패턴을 보인다는 것을 발견했다.

4. 생태학 연구

이 방법은 인간 음성뿐 아니라 동물 신호에도 적용된다.

예를 들어 벌집의 소리를 분석하면

비 오는 소리
기생충 감염
벌들의 활동 상태

등을 구분할 수 있다.

최신 연구: AI와의 결합

최근에는 이 분석 방법을 딥러닝 및 음성 파운데이션 모델과 결합하려는 연구가 활발하다.

1. Modulation Tensor

기존의 변조 분석을 확장해 3차원 텐서 형태로 표현하면
시간에 따른 변화를 더 잘 추적할 수 있다.

2. 화자 인식

변조 특징을 사용하면 잔향 환경에 덜 민감한 화자 인식 모델을 만들 수 있다.

3. 파운데이션 모델과 결합

예를 들어 다음과 같은 모델들과 결합할 수 있다.

Wav2Vec
기타 self-supervised speech model

이때 변조 특징은 다음과 같은 장점을 가진다.

자연 음성과 합성 음성 구분
화자 정보 제거 (privacy preservation)

4. 딥페이크 음성 탐지

합성 음성은 종종 자연적인 공간 정보나 변조 패턴이 부족하다.
따라서 변조 스펙트럼 공간에서 합성 방식마다 다른 흔적이 나타난다.

이 특성을 이용해 딥페이크 탐지 연구도 진행되고 있다.

5. 경량 AI 모델

엣지 디바이스(예: IoT 센서)에서는 작은 모델이 필요하다.
이때 변조 정보를 지식 증류(Knowledge Distillation) 과정에 활용하면

더 작은 모델
더 높은 정확도

를 동시에 얻을 수 있다.

생물학적 신호는 스펙트럼이 매우 빠르게 변화하기 어렵다는 특성을 갖는다. 반면 합성 신호나 잡음은 이러한 제약이 상대적으로 적다. 이러한 차이 때문에 변조 분석을 통해 자연 신호와 인공 신호를 구별할 수 있으며, 이 원리는 다양한 분야에서 활용되고 있다. 예를 들어 음성 AI, 의료 음성 분석, 딥페이크 탐지, 생태학 신호 분석 등에서 이러한 접근이 사용되고 있다.

진폭 변조 스펙트럼 분석은 오래된 신호 처리 기술처럼 보일 수도 있다. 실제로 최근 음성 연구에서는 mel spectrogram을 제외하면 널리 사용되는 다른 특징 표현을 접하기는 쉽지 않다.하지만 이러한 고전적인 신호 처리 개념들이 여전히 유용한 정보를 담고 있다는 점도 점차 다시 주목받고 있다. 최근에는 self-supervised speech representation이나 파운데이션 모델에서 추출된 특징을 변조 관점에서 분석하거나 보완적으로 활용하려는 시도들도 등장하고 있다.이러한 모습들은 음성 신호의 구조를 더 깊이 이해하고, 합성 음성 탐지나 음성 품질 분석과 같은 문제에서 새로운 가능성을 보여주고 있다.