음악, 음성 딥러닝에서 사용되는 데이터는 크게 MFCC와 mel-spectrogram이 있으며 요즘엔 mel-spectrogram이 선호된다.
mel-spectrogram은 이름에서도 알 수 있듯이 mel과 spectrogram이 합쳐진 용어이다. mel은 mel-frequency를 뜻한다. 인터넷에서 mel-frequency를 찾아볼 수 있는 설명은 다음과 같다.
mel-frequency는 주파수 척도를 나타내는 방법 중 하나로, 인간의 청각 특성을 모델링하기 위해 설계된 척도입니다.
처음 배우는 입장에선 모호한 설명이다. 사실 나는 이런 설명이 매우 안 좋다고 생각한다. 위 설명에서 나오는 인간의 청각 특성이란 바로 음악 이론을 말하고 설계된 척도는 물리적인 주파수를 계이름과 같은 척도로 바꾸는 것을 뜻한다.
따라서 우리가 mel-spectrogram을 이해하기 위해선 간단한 음악 이론에 대해서 알 필요가 있다. 이에 대한 내용은 추후에 정리하여 올릴 예정이다.
spectrogram은 시간과 주파수에 따라 신호의 에너지를 색상으로 표현한 2차원 그래프이다. 우리는 시간, 음압, 음색, 음높이를 이용하여 소리를 구분한다. spectrogram은 푸리에 변환을 이용하여 이 모든 특징을 담는다.
따라서 spectrogram을 이해하기 위해선 푸리에 해석의 전반적인 내용을 알고 있으면 좋다. 기본적으로 이공계 학부 수학 지식 정도면 이해하는 데 지장은 없으나 spectrogram을 얻을 때 사용하는 다양한 기법의 원리를 알고 싶다면 푸리에 해석학을 공부하면 좋다.