# SegFormer
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
KeyPoints: - Positional encodeing free hierarchically structured Transformer encoder (resolution independent test/training performance, multiscale features) - Simple structured MLP decoder Backgrounds Former works are concentrated on encoders only (PVT, Swin Transformers, etc). Still requires high computation on decoders. Overal Method Input image(H×W×3) is divided in to patches of size 4×4. By hierarchicl Transformer encoder, mulit-level features sized {1

[논문요약] SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
Abstract SegFormer의 특징은 크게 두가지로 볼 수 있다. 1) Encoder를 계층적으로 구성해 multiscale feature output을 가진다. 또한 position encoding을 사용하지 않는다. -기존 ViT라면 학습 시 사용되지 않은 이미지를 테스트하기 위해 fine-tuning할 때 position code에 interpolation 사용해아하는데 그러지 않아도 되기에 interpolation으로 인한 성능하락은 피할수 있게된다. 2) 복잡한 Decoder가 아니라 MLP만 사용되는 가벼운 Decoder를 사용한다. -각기 다른 레이어들의 output들을 통합함으로써 local attention과 global attention을 결합해 강력한 표현력을 갖는다. 이러한 SegFormer는 Cityscapes,ADE20K 데이터셋에서 SOTA를 기록했으며, Cityscapes-C에서 우수한 zero-shot robustness도 입