이 글은 논문을 읽고 정리하기 위한 글입니다.
내용에 오류가 있는 부분이 있다면 조언 및 지적 언제든 환영입니다!
간단한 개념 위주로 정리할 예정입니다.
개인적으로 Audio & Speech 분야의 Sound Classification 에서 중요하다고 생각하는 논문을 정리해보았습니다.
AST는 PSLA보다 높은 성능을 보였지만, Transformer의 Token 개수에 따른 메모리 및 계산 복잡도 문제로 낮은 속도 뿐 아니라 학습을 위한 거대한 GPU 메모리를 요구하였습니다. 본 논문에서는 이러한 문제를 효과적으로 해결하면서 성능까지 올리는 방법을 제안합니다.
Patchout 이라는 Regularizer 기법을 적용하여 빠른 학습 속도뿐 아니라 성능향상을 보여줌
2D Positional Encoding (PE)을 Frequency PE 와 Time PE 으로 나눠서 각각 학습하게 함
추가적인 Data Augmentation 기법 적용
Frequency & Time Positional Encoding
Patchout
No-Overlap Patch (N)
Light Model 실험 (L)