Dynamic sparse convolutional layer
- Only with 3x3 kernels
- Adaptive spatial aggregation
- Reduce inductive bias
- Low computational cost compared to large convolutional layers
Overall Architecture of ViT
Convolution vs MHSA
- Effective Receptive Field가 큰 Model은 대개 Downstream Vision Task에서 더 잘 수행된다는 것이 오랫동안 인식됨
- 3x3 Regular Convolution에 의해 Stacked CNN은 실질적인 Effective Field는 상대적으로 작음
- Very Deep Model에서도 CNN Based Model은 Long-Range Dependencies를 얻을 수 없음
- Weight가 Input에 의해 Dynamic하게 조정되는 MHSA와는 다르게 Regular Convolution은 Static Weight를 가지고 2D Locality, Neightborhood Structure, Translation Equivalence 특성을 가진 Operation
- Bias가 높은 특성을 이용하여 Regular Convolution Model은 ViT에 비해 빨리 수렴되고 Training Data가 덜 필요할 수 있지만 CNN이 Web-Scale의 Large-Scale Data에 정보를 학습하는 것을 제한하기도 함