high-resolution dense prediction은 computational photograpy, autonomous driving, etc 등 다양한 real-world applications에 매우 유용하다.
하지만 SOTA high-resolution dense prediction models은 the vast (막대한) computational cost로 인해 HW device에 deploying하기 어렵다.
본 연구에서는 EfficientViT, a new family of high-resolution vision models with novel lightweight multi-scale attention을 제안한다.
기존의 high-resolution dense prediction models들은 good performance를 달성하기 위해,
heavy self-attention, HW inefficient large-kernel convolution, or complicated topology structure에 의존하는 반면,
EfficientViT의 lightweight multi-scale attention은
global receptive field
과 multi-scale learning
이라는 high-resolution dense prediction에서 중요한 두 가지 요소를,
only lightweight and HW-efficient operations만으로 달성했다.
이러한 설계 덕분에 Efficient ViT는 mobile CPU, edge GPU, cloud GPU 등 다양한 HW platform에서 기존 SOTA model보다 눈에 띄는 performance gains과 speedup을 보여준다.
(배경)
(제안 & 이전 연구의 문제점)
a global receptive field
and multi-scale learning with HW-efficient operations
이다.(제안 방법 디테일)
따라서, 본 연구에서 제안하는 module의 design principle은 HW-inefficient operations을 피하면서 다음의 two critical features를 가능하게 한다.
구체적으로,
우리는 EfficientViT를 두 가지 대표적인 high-resolution dense prediction tasks: semantic segmentation and super-resolution에서 evaluate했다.
EfficientViT는 기존 SOTA high-resolution dense prediction models보다 significant performance boost를 보여준다.
더욱 중요한 점은, EfficientViT가 HW-inefficient operations을 포함하지 않기 때문에,
FLOPs 감소가 실제 HW devices에서 latency 감소로 직접 이어질 수 있다는 점이다.
We summarize our contributions as follows:
Our lightweight MSA module은 two crucial aspects of efficient high-resolution dense prediction을 balances한다. 즉, performance and efficiency
특히, a global receptive field and multi-scale learning은 performance 측면에서 필수적이다.
이전의 SOTA high-resolution dense prediction models은 이 features들로 strong performances를 제공할 수 있었지만 good efficiency를 제공하는 데에 실패했다.
우리의 module은 약간의 capacity를 희생하는 대신, significant efficiency improvements를 통해 이 문제를 완화한다.
제안하는 lightweight MSA module은 Figure 2 (right)에 나타나 있다.
특히, 우리는 무거운 self-attention 대신, the global receptive field를 가능하게 하기 위해 lightweight ReLU-based attention [28]을 사용한다.
ReLU -based attention 및 기타 linear attention modules들은 other domains에서 연구된 바 있지만, high-resolution dense prediction에 성공적으로 적용된 적은 없었다.
우리가 아는 한, EfficientViT는 high-resolution dense prediction에서 ReLU-based attentions's effectiveness를 입증한 최초의 연구이다.
input 가 주어졌을때, self-attention의 일반적인 form은 다음과 같다:
여기서 , , 이고 는 learnable linear projection matrix이다.
는 i-th row of matrix 를 나타낸다.
은 similarity function이다.
teh similarity function 일 때, Eq. (1)은 the original self-attention이 된다.
외에도, 다른 similarity function을 사용할 수 있다.
이 연구에서, 우리는 both the global receptive field and linear computational complexity를 달성하기 위해 ReLU-based global attention을 사용했다.
ReLU-based global attention에서, the similarity function은 다음과 같이 정의된다:
그리고 나서, 우리는 the computational complexity를 줄이기 위해서 the associative property(결합법칙) of matrix multiplication을 수반할 수 있고
memory footprint from quadratic to linear without changing the functionality를 수반할 수 있다:
ReLU-based global attention의 another key는 softmax처럼 HW-unfriendly operations을 포함하지 않는다는 것이고, 이는 HW에서 more efficient하게 만든다.
예를 들어, Fig. 3에서 softmax attention and ReLU-based linear attention의 latency comparison을 보여준다.
similar computation으로, ReLU-based linear attention은 mobile에서 softmax attention보다 훨씬 빠르다.
(skip)