이 글은 논문을 읽고 정리하기 위한 글입니다.
내용에 오류가 있는 부분이 있다면 조언 및 지적 언제든 환영입니다!
간단한 개념 위주로 정리할 예정입니다.
개인적으로 Audio & Speech 분야의 Sound Classification 에서 중요하다고 생각하는 논문을 정리해보았습니다.
Hierarchical Transformer
Window Attention
Input: Bx1x64x1024 (Bx1xFxT)
Interpolation: Bx1x256x1024
Patch size: 4x4
Patched Embedding: BxDx64x256 (BxCxFxT)
Attention Window: 8x8
Window Attention Form
Group 1: ( Bx8x32 )x1Dx8x8
Group 2: ( Bx4x16 )x2Dx8x8
Group 3: ( Bx2x8 )x4Dx8x8
Group 4: ( Bx1x4 )x8Dx8x8
Encoded Feature: Bx8Dx8x32 (BxCxFxT)
Token Segmantic CNN
H
vs HTS-AT^HC
)P
)The pretrained model definitely improves the performance by building a solid prior on pattern recognition