이 글은 논문을 읽고 정리하기 위한 글입니다.
내용에 오류가 있는 부분이 있다면 조언 및 지적 언제든 환영입니다!
간단한 개념 위주로 정리할 예정입니다.
개인적으로 Audio & Speech 분야의 Sound Classification 에서 중요하다고 생각하는 논문을 정리해보았습니다.
BERT와 비슷하게 Patch(Token) 기반으로 Feature Drop 이후 discriminative (InfoNCE Loss) 와 generative objective (MSE Loss)로 학습을 하는 방법입니다.
Patch Masking 알고리즘
Discriminative Objective (InfoNCE Loss)
Generative Objective (MSE Loss)
전반적인 MSPM 학습 알고리즘
결론
Aggregation 관련
Mean pooling
을 이용했다고 했습니다.Patch Split 관점
Number of Masking Patch
Patch-based and Frame-based SSAST(AST)
SSL 모델 비교