지난 10년 동안 audio classifiaction에서 CNN이 주요하게 사용됐음
하지만 CNN에 대한 의존이 필요한지, 순전히 어텐션에만 기반한 신경망이 audio classification에서 좋은 성과를 얻기에 충분하지 않은지 불분명함
따라서 이 논문에서 convolution-free한, 순전히 attention-based인 AST를 소개하며 그 궁금증들에 답함
Audio classification에서 특히 공간적 지역성과 translation equivariance와 같은 CNN에 내재된 inductive bias가 유용하다고 여겨지며 널리 사용되어 왔음
더 넓은 범위의 맥락을 이해하기 위해, CNN과 self-attention이 결합된 하이브리드 모델들이 audio classification의 여러 task들에서 SOTA의 결과를 얻었음
그러나, vision 도메인에서 오로지 어텐션 기반의 모델들의 성공을 보면 여전히 audio classification에 CNN이 필수적인지 의문을 갖는 것은 합리적임
이 의문에 답하기 위해 Audio Spectrogram Transformer(AST)를 소개함
이 모델은 convolution-free하고 순전히 attention-based 모델로 오디오 스펙트로그램에 직접 적용되며, 가장 낮은 층에서도 장기적인 전역 문맥을 포착할 수 있음
추가적으로 ImageNet 에서 사전 학습된 Vision Transformer (ViT)의 지식을 AST로 전이하는 접근법을 제안함
< AST의 장점 >
🖇️ Related Work
AST는 이름에서도 알 수 있듯이 Transformer 아키텍처에 기반함
vision task를 위한 Transformer 모델인 ViT는 AST와 유사함
둘은 비슷한 구조를 갖지만 ViT는 오로지 고정된 차원들의 input들에 적용되고 AST는 다양한 길이의 audio input들에 적용가능함
추가로, ImageNet에서 사전 학습된 ViT의 지식을 AST로 전이하는 접근법을 제안함
2.1. ModelArchitecture
< Input Spectrogram >
t초의 audio waveform input은 25ms의 hamming 윈도우를 사용하여 매 10ms마다 계산된 128차원의 로그 멜 필터뱅크(fbank) 특징 시퀀스로 변환됨
이는 입력으로 128 × 100t 스펙트로그램을 생성함
< Patch Split with Overlap >
spectrogram을 시간과 주파수 차원에서 6씩 겹치는 N개의 16x16 패치 시퀀스로 나눔
여기서 N은 패치의 수이며 Transformer의 유효 입력 시퀀스 길이
N = 12⌈(100t − 16)/10⌉
< Linear Projection >
각 16 x 16 패치를 선형 projection layer를 사용해서 768 크기의 1차원 패치 임베딩으로 평탄화
선형 projection layer는 패치 임베딩 layer로 여긴다
< Positional embedding >
모델이 2차원 audio spectrogram의 공간적 구조를 포착하도록 각 패치 임베딩에 학습가능한 positional embedding을 추가함
< [CLS] token >
시퀀스의 시작에 [CLS] 토큰을 추가함
AST는 classification task를 위해 고안됐기 때문에, 오직 기존의 transformer와 동일한 encoder만을 사용함
이런 간단한 setup은 구현하기 쉽고, 복제가 가능하고, AST에 전이 학습을 적용할 계획이며, 표준 아키텍처는 전이 학습을 더 쉽게 만듦
2.2. ImageNet Pretraining
CNN과 비교했을 때 transformer의 단점은 학습을 위한 데이터가 더 필요하다는 것이다
이 문제를 해결하기 위해 이미지와 오디오 스펙트로그램의 유사성을 활용해 AST에 교차 모달리티 전이 학습을 적용함
기존의 전이 학습 연구는 CNN 기반 모델에만 적용되었으나, 우리는 ImageNet에서 사전 학습된 Vision Transformer(ViT)를 AST에 적용할 것임
따라서 이 논문은 사전 학습된 ViT를 AST에 맞게 조정하여 전이 학습을 진행
ViT와 AST는 유사한 아키텍처를 가지고 있지만, 입력 형식이 다르기 때문에 몇 가지 수정이 필요
< 수정 사항 #1 >
< 수정 사항 #2 >
< 수정 사항 #3 >
본 연구에서는 CNN knowledge distillation으로 훈련된 DeiT의 사전 학습된 가중치를 사용함. 또한, DeiT는 ImageNet 훈련 동안 두 개의 [CLS] 토큰을 가지므로, 이를 평균화하여 오디오 훈련에 사용함.
3.1.2. AudioSet Results
< 전체 데이터셋 실험 결과 >
< 밸런스드 데이터셋 실험 결과 >
< 결론 >
3.1.3. Ablation Study
Impact of ImageNet Pretraining
Impact of Positional Embedding Adaptation.
Impact of Patch Split Overlap
Impact of Patch Shape and Size
3.2. Results on ESC-50 and Speech Commands
< ESC-50 실험 결과 >
< Speech Commands V2 실험 결과 >
audio classification에서 CNN이 가장 흔히 사용됐지만, 이 논문은 CNN은 필수적이지 않고, 오로지 attention-based한 모델인 AST가 간단한 구조로 좋은 성과를 보일 수 있음을 발견함