저번 글에 인간은 소리를 음계로 듣고 음계는 선형적이라고 밝혔다. 사실 주파수의 물리적 특성과는 많이 다르다. 음계를 물리적으로 분석해 보면 한 옥타브를 올릴 때마다 주파수가 2배가 되는 것을 알 수 있다. 옥타브 사이의 12개의 음계는 이걸 지수함수적으로 12등분 한 것으로 다음과 같이 표현될 수 있다.
f(0)의 기준이 되는 음이고 f(n)는 기준에서 얼마나 음계가 올라가는지를 뜻한다. 물리적으로 소리는 지수 관계로 표현되는 데 우리가 사용하는 음악 이론은 소리를 선형적으로 표현한다. 그래서 우리가 물리적인 특성을 음악 이론에 적용하기 위해서 지수 관계를 선형관계로 바꿔줘야 한다. 이게 mel-scale의 의미이다.
이건 mel-scale과 spectrogram을 합친 거로 spectrogram은 푸리에 변환을 이용해 주파수를 나타낸 물리적인 특성인데 이걸 음악 이론을 쓰기 위해 선형적으로 바꾸는 mel-scale을 적용한 거다.
mel-scale을 어떻게 적용할까? 별거 없다. 지수함수를 선형함수로 바꾸려면 로그를 취하면 된다.
mel-scale엔 여러 공식이 있다. 여러 공식이 왜 있을까? 그건 그냥 어떤 로그를 취하던 주파수와 주파수에 로그를 취한 값은 일대일 대응을 나타내기 때문에 상관이 없다. 유일한 상관이 있다면 어떤 로그를 취하냐에 따라 주파수별로 인간이 느끼는 특정 주파수대역이 더 정확하다는 점뿐이다.