[Audio]MFCC VS Mel-Spectrogram

건너별·2022년 1월 7일
2

audio

목록 보기
1/1

음성 데이터 분석의 2가지 방법(대표적)

  1. MFCC로 feature 추출
  2. Mel-Spectrogram 추출

각기 특징 및 장단점에 대해 알아보겠습니다.

MFCC(Mel-Frequency Ceptral Coefficient)

  • 음성 데이터를 ‘특징벡터’화 해주는 알고리즘.
    • 1) 사람이 인지하기 좋은 Mel -scale 로
      2) 음성데이터를 모두 20~40ms로 쪼개어
      fourier transform을 한 것으로 이해하면 됨.

시간-계수의 꼴로 데이터가 변환됨!

Mel - scale

  • 달팽이관은 주파수가 낮은 대역에서는 변화하는 주파수를 잘 감지하는데, 주파수가 높은 대역에서는 주파수 감지를 잘 하지 못함.
  • 이를 고려하여 scaling해줄 수 있는데, 이때 이 기준을 Mel-Scale 이라고 함.

[저주파 대역 부분이 굵고 고주파 대역 부분이 좁다]

Spectrogram

  • 소리나 파형을 시각화한 도구
  • 일반적으로, 가로축이 Time, 세로축이 Frequency, 색깔이 amplitude의 크기를 의미하며 colorbar 형태로 안내되어 있음.
  • Mel- Spetrogram은 이 중 주파수를 mel-scale로 변환한 형태.

MFCC VS Mel-Spectrogram 언제 쓸까?

  • MFCC : 연산량이 적고, 일반적인 학습 데이터(도메인에 한정되지 않은) 에 적합(de-correlate 해주기 때문).

  • Mel-Spectrogram : 연산량이 많지만(CNN으로 써야하는) 특정 도메인의 학습 데이터에 적합

Reference

profile
romantic ai developer

0개의 댓글