소개

응큼한포도·2023년 7월 16일
0

mel-spectrogram

간단한 소개

음악, 음성 딥러닝에서 사용되는 데이터는 크게 MFCCmel-spectrogram이 있으며 요즘엔 mel-spectrogram이 선호된다.

mel-spectrogram은 이름에서도 알 수 있듯이 mel과 spectrogram이 합쳐진 용어이다. mel은 mel-frequency를 뜻한다. 인터넷에서 mel-frequency를 찾아볼 수 있는 설명은 다음과 같다.

mel-frequency는 주파수 척도를 나타내는 방법 중 하나로, 인간의 청각 특성을 모델링하기 위해 설계된 척도입니다.

처음 배우는 입장에선 모호한 설명이다. 사실 나는 이런 설명이 매우 안 좋다고 생각한다. 위 설명에서 나오는 인간의 청각 특성이란 바로 음악 이론을 말하고 설계된 척도는 물리적인 주파수를 계이름과 같은 척도로 바꾸는 것을 뜻한다.

따라서 우리가 mel-spectrogram을 이해하기 위해선 간단한 음악 이론에 대해서 알 필요가 있다. 이에 대한 내용은 추후에 정리하여 올릴 예정이다.

spectrogram은 시간과 주파수에 따라 신호의 에너지를 색상으로 표현한 2차원 그래프이다. 우리는 시간, 음압, 음색, 음높이를 이용하여 소리를 구분한다. spectrogram푸리에 변환을 이용하여 이 모든 특징을 담는다.

따라서 spectrogram을 이해하기 위해선 푸리에 해석의 전반적인 내용을 알고 있으면 좋다. 기본적으로 이공계 학부 수학 지식 정도면 이해하는 데 지장은 없으나 spectrogram을 얻을 때 사용하는 다양한 기법의 원리를 알고 싶다면 푸리에 해석학을 공부하면 좋다.

profile
미친 취준생

0개의 댓글