사람 목소리와 같은 소리를 컴퓨터가 다루기 위해선 소리를 숫자로 변환하는 과정이 필요하다.
Sound digitalization
소리를 숫자로 변환하는 과정은 다음 단계를 따른다.
Waveform extraction (파형 추출)
소리를 시간에 따른 진폭(크기)로 나타낸다.
Spectogram generation
Short-Time Fourire Transform(STFT)를 사용하여 시간과 주파수를 매핑
MFCC computation
MFCC(Mel-Frequency Cepstral Coefficients)는 사람이 듣기에 더 중요한 정보를 담기 위해 사용된다.
Mel spectogram
STFT 기반 스펙토그램을 Mel scale 스펙토그램으로 변환한다. Mel scale은 인간의 주파수 인식 방식(고주파는 둔하게, 저주파는 민감하게)을 반영한다.

장점
Intuitive visualization : 시간에 따른 진폭을 시각화하여, 전체적인 음량 변화 파악이 용이
Temporal markers : 시작/종료 지점이나 진폭의 급격한 변화를 쉽게 인식
단점
No frequency insight : 단일 파형을 어떤 주파수 성분이 존재하는지, 시간이 지나면서 어떻게 변화하는지 시각화하기 어려움
Complex overlaps : 여러 악기나 소리가 겹칠 경우, 진폭 그래프만으로 주파수 정보를 분리해내기 어려움
스펙트로그램이란, 시간에 따라 변화하는 신호의 주파수 스펙트럼을 시각적으로 표현한 것이다.
소리, 진동, 전파 및 여러 신호를 분석하는 데 사용되며, 3차원으로 표현한다.
시간(x), 주파수(y), 강도(색상, 밝기)


장점
Time-Frequency analysis : 시간에 따른 주파수 변화를 동시에 볼 수 있음
Harmonic/Pitch insights : 밝은 띠는 특정 주파수에서 에너지가 높음을 나타내므로 고주파를 식별하는 데 유용
단점
Trade-off in resolution : STFT는 시간 해상도와 주파수 해상도를 동시에 높게 가져갈 수 없음
Not perceptually scaled : 인간은 주파수를 비선형적으로 인식하기 때문에 고주파 영역이 지나치게 압축되어 보일 수 있음
Mel은 인간이 주파수를 인지하는 방식을 모델링한 지각적 음감 척도(Perceptual pitch scale)이다.
특징
인간 청각의 비선형 특징을 반영(저주파는 민감, 고주파는 둔감)
스펙트로그램을 인간의 청각 인식과 일치시키는 역할
음석 인식, 음악 분석, 오디오 분류 성능을 향상
멜 스펙트로그램은 기존 STFT 기반 스펙트로그램을 Mel scale로 변환한 것