(배경)
(문제)
(제안)
이를 해결하기 위해, 우리는 both space and scales에 대해서 fully active feature inteaction을 하는, Feature Pyramid Transformer (FPT)를 제안한다.
FPT는 any feature pyramid를 same size를 갖지만 richer contexts를 갖는 another feature pyramid로 transform된다.
이 과정은 다음 세 가지 방식의 transformer로 구성된다:
FPT는 a generic visual backbone으로 사용할 수 있으며, computational overhead도 적절한 수준으로 유지된다.
(실험)
(background)
modern visual recognition systems는 context에 기반한다.
Fig. 1 (a)에 있는 CNN의 hierarchical structure 때문에 pooling, stride, or dilated convolution을 함으로써
contexts는 점진적으로 larger receptive fields (초록 점선 사각형)에 encoded된다.
따라서 the prediction from the last feature map은 본질적으로 the rich contexts에 기반한다 -
예를 들어, small object (예: mouse)에 대해 단 하나의 "feature pixel"만 존재하더라도, larger contexts (예: table and computer)를 인식하기 때문에 여전히 인식이 가능하다. (?)
(동의할 수 없음. raw image의 mouse는 가장 마지막 layer에서 뭉개지면서 recognition이 어려울 것 같음.)
Scale도 중요하다 - mouse를 인식하려면 the last feature map으로부터 단 하나의 feature pixel이 아니라, 더 많은 feature pixels이 필요하다.
하지만 the last feature map은 small objects를 쉽게 놓칠 수 있다.
전통적인 solution은 the same image에 대해 image pyramid를 쌓는 것이다.
여기서 higher/lower levels은 각각 lower/higher resolutions의 imges를 의미한다.
이 방식은 서로 다른 크기의 objects를 해당 levels에서 인식하도록 한다.
예를 들어, mouse는 lower levels (high resolution)에서, table은 higher levels (low resolution)에서 인식된다.
그러나 image pyramid는 각 resolution마다 time-consuming CNN forward pass가 필요하므로 연산 비용이 많이 든다.
다행히도, CNN은 network 내에서 자체적으로 feature pyramid를 제공한다.
즉, lower/higher-level feature map은 각각 high/lower resolution visual content without computational overhead를 나타낸다.
Fig. 1 (b)에서 보듯이, 우리는 서로 다른 level의 feature map을 활용하여 다양한 크기의 objects를 인식할 수 있다.
예를 들어, small objects (computer)는 lower-levels에서, large objects (chair and desk)는 higher-levels에서 인식된다.
(motivation)
(제안)
이름에서 알 수 있듯이, FPT의 interaction은 transformer-style을 채택한다.
즉, 효과적인 informative long-range interaction을 위한 qeury, key, value 연산을 수행하며, (Section 3.1)
이는 우리가 추구하는 적절한 scales에서의 non-local interaction 목표에 부합한다.
또한, 다른 transformer models들과 마찬가지로 TPU를 사용하여 computation overhead를 완화할 수 있다. (Section 4.1)
Our technical contributions은 Fig. 2에 FPT breakdown으로 그려져있다,
FPT는 three transformers로 설계되었다:
Self-Transformer (ST)
Grounding Transformer (GT)
Rendering Transforemr (RT)
cross-scale feature interaction에 대한 intuitive approach는 FPN과 PANet처럼 점진적으로 multi-scale feature maps을 합치는 것이다.
구체적으로, FPN과 PANet은 모두 BFP을 기반으로 한다.
FPN은 top-down path를 추가하여 semantic information을 low-level feature map으로 전달하고,
PANet은 FPN을 기반으로 bottom-up path를 추가하여 이를 확장했다.
특히, within-scale의 feature interaction을 위해 일부 최근 연구에서는 non-local operation과 self-attention을 활용하여
동일 장면 내에서 함께 등장하는 object (co-occuruent object) features를 capture하고자 했다.
하지만 우리는 just one uniform scale의 feature map에서 수행되는 non-local interaction만으로는 context를 충분히 표현할 수 없다고 주장한다.
따라서 본 연구에서는, non-local interaction 자체를 interaction하는 object의 해당 scales에서 수행하는 것을 목표로 한다. (?)
input image가 주어지면, 우리는 feature pyramid를 extract한다.
feature pyramid는 low/high levels에 각각 fine-/coarse-grained feature maps이 있다.
우리는 low-level fine-grained feature map을 라 하고
high-level coarse-grained feature map을 라 한다.
Feature Pyramid Transformer (FPT)는 feature들이 space 및 scales를 전반적으로 interact할 수 있게 한다.
FPT는 구체적으로 세 가지 transformers로 구성된다: self-transformer, grounding transformer, and rendering transformer.
transformed feature pyramid는 original feature pyramid와 same size를 갖지만 richer contexts를 포함한다.
[Critique, 중단 이유] section의 이유로 논문 리뷰를 중단하고,
얻어갈 수 있는 Intuition만 짧게 작성하겠다.
"Moreover, it has been empirically shown that the negative value of the euclidean distance is more effective in computing the similarity than dot product when the semantic information of two feature maps is different [42]."
figure 2 정말 못 그렸다고 생각함.
3개의 attention 연산으로 이루어졌는데(Self-Transformer, Grounding Transformer, Rendering Transformer),
당연히 Parameter와 GFLOPs가 2~3배 늘어남.
object detection과 segmentation은 application에 사용될 model들이라 경량화도 중요한 요소인데 이를 아예 무시해버림.
Introduction에서 TPU 언급을 딱 한 번 하긴 하는데, 얼만큼의 accelerating 되는지? 등 실험에서 구체적인 수치와 분석이 아예 없음.