DiNAT 논문리뷰에 나오는 Sparse-Attention에 대해 보충 설명한 글입니다.
Sparse Attention 기반 모델은 긴 시퀀스 데이터를 더 효율적으로 학습 가능
Motivation
- Global Context가 필요하고 긴 시퀀스 Token을 활용해야 하는 경우
- Self-Attention을 사용한다면 계산량이 엄청남
Sparse Attention을 이용
Limitations
- Sparse-Attention 기반 모델은 Swin에 비해 계산량⬆️, 처리량⬇️
- Self-Attention에 Non-Local, Sparse한 규제를 주는 연구가 Hierarchical Transformer에서는 잘 연구되지 않았음
Conculsion
- Hierarchical Transformer에 Local Receptive Field를 넓히고 Global Context를 재도입하기 위해서 DiNA를 제안
- DiNA는 Sparse, Global 연산을 할 수 있고 Local 전용 연산으로 Neighborhood Attention과 같이 사용될 때 가장 효율적으로 작동