음성 데이터 분석의 2가지 방법(대표적)
- MFCC로 feature 추출
- Mel-Spectrogram 추출
각기 특징 및 장단점에 대해 알아보겠습니다.
MFCC(Mel-Frequency Ceptral Coefficient)란
- 음성 데이터를 ‘특징벡터’화 해주는 알고리즘.
- 1) 사람이 인지하기 좋은 Mel -scale 로
2) 음성데이터를 모두 20~40ms로 쪼개어
fourier transform을 한 것으로 이해하면 됨.
시간-계수의 꼴로 데이터가 변환됨!
Mel - scale
- 달팽이관은 주파수가 낮은 대역에서는 변화하는 주파수를 잘 감지하는데, 주파수가 높은 대역에서는 주파수 감지를 잘 하지 못함.
- 이를 고려하여 scaling해줄 수 있는데, 이때 이 기준을 Mel-Scale 이라고 함.
[저주파 대역 부분이 굵고 고주파 대역 부분이 좁다]
Spectrogram
- 소리나 파형을 시각화한 도구
- 일반적으로, 가로축이 Time, 세로축이 Frequency, 색깔이 amplitude의 크기를 의미하며 colorbar 형태로 안내되어 있음.
- Mel- Spetrogram은 이 중 주파수를 mel-scale로 변환한 형태.
MFCC VS Mel-Spectrogram 언제 쓸까?
-
MFCC : 연산량이 적고, 일반적인 학습 데이터(도메인에 한정되지 않은) 에 적합(de-correlate 해주기 때문).
-
Mel-Spectrogram : 연산량이 많지만(CNN으로 써야하는) 특정 도메인의 학습 데이터에 적합
Reference