

이 paper에서는, Path Aggregation Network (PANet)을 제안한다.
구체적으로, bottom-up path augmentation을 통해 lower layeers의 accurate localization signals로 the entire feature hierarchy를 강화하고,
이는 lower layers and topmost feature 사이의 information path를 줄일 수 있다.
우리는 adaptive feature pooling을 제안한다.
이는 feature grid와 all feature levels을 link하여, 각 level의 useful information이 following proposal network로 직접 전달되도록 한다.
각 proposal에 대해 서로 다른 views(관점)을 capturing하는 complementary branch를 추가하여, mask prediction을 향상시킨다.
To achieve high performance, feature pyramid network(FPN)은 in-network feature hierachy를 extract하기 위해 사용되었고,
여기서, a top-down path with lateral connections으로 semantically strong features를 propagate하도록 보강되었다.
최근 new released datasets은 새로운 algorithm 설계를 촉진한다.
COCO는 각 이미지에 complex spatial layout을 가진 여러 instances가 담겨 있다.
반면, Cityscapes and MVD는 각 image에 많은 traffic participants가 포함된 거리 장면을 제공한다.
이 dataset들에는 blur, heavy occlusion and extremly small instances가 나타난다.
image classification에서 network를 설계하기 위해 제안된 몇 가지 principles들이 object recognition에도 효과적이다.
예를 들어, clear residual connection과 dense connection을 통해 information path를 shortening하고 information propagation을 쉽게 만드는 것이 유용하다.
또한, split-transform-merge strategy를 따라 parallel paths를 생성함으로써 information paths의 flexibility and diversity를 높이는 것 역시 도움이 된다.

skip...
Larger context region methods에서는 서로 다른 resolution을 갖는 regions에서부터 context information을 활용하기 위해,
각 proposal에 대해 foveal 구조를 사용해 features를 pooled하였다.
larger region으로부터 pooled된 features는 surrounding context(주변 문맥 정보)를 제공한다.
PSPNet과 ParseNet에서는 global pooling을 사용하여 semantic segmentation quality를 크게 향상시켰다.
[47] 또한 global convolutions을 이용해 유사한 경향을 보였다.
우리의 mask prediction branch 또한 global information을 access할 수 있도록 지원하지만, 우리의 방법은 기존 방법들과는 완전히 다르다.


FPN에서, proposals은 그 크기에 따라서 서로 다른 feature levels에 assigned된다.
그래서 small proposals은 low feature levels에 assigned되고 higher proposals은 high feature levels에 assigned된다.
이는 simple and effective긴 하지만, it could generate non-optimal results.
예를 들어, two proposals with 10-pixel difference는 서로 다른 levels에 assigned될 수 있다.
실제로, 이 two proposals은 similar하다.
또한, feature의 importance는 반드시 그것이 속한 levels과 strongly correlated되지 않을 수 있다.
high-level features는 large receptive fields를 가지며 richer context information을 capture한다.
따라서 small proposals이 이러한 feature에 access할 수 있도록 하면, prediction에 유용한 fine details and high localization accuracy를 가질 수 있다.
따라서 large proposals이 low-level feature에 access할 수 있도록 하는 것은 obviously beneficial 하다.
이러한 생각을 바탕으로, each proposal마다 all levels로부터의 features를 pooling하고, 이를 prediction에 fusing하는 방법을 제안한다.
우리는 이 과정을 adaptive feature pooling이라고 부른다.
이제 adaptive feature pooling을 통해 서로 다른 level에서 pooling된 feature들의 ratio를 분석한다.
우리는 서로 다른 level의 features들을 fuse하기 위해 max operation을 사용하였고,
이는 network가 element-wise useful information을 선택할 수 있도록 한다.
우리는 FPN에서 원래 assigned된 level을 기준으로, proposals들을 4개의 classes로 cluster했다.
각 set of proposals에 대해, 서로 다른 level에서 selected된 featurs의 비율을 계산한다.
notation에서, levels 는 low-to-high levels을 나타낸다.
Figure 3에서 볼 수 있듯이,
the blue line은 원래 FPN에서 level 1(low-level)에 할당된 small proposals을 나타낸다.
놀랍게도, 약 70%의 feature를 higher levels에서 가져온 것이다.
the yellow line은 FPN에서 level 4(high-level)에 할당된 large proposal을 나타낸다.
여기서도 50% 이상의 feature가 lower levels에서 pooling된 것이다.
이 관찰을 "features in multiple levels together are helpful for accurate prediction"을 명확히 보여주며, bottom-up path augmentation의 strong support가 된다.


Faster R-CNN에서 Region Proposal Network(RPN)으로 후보 bounding box를 만들어 내는데, 이를 proposal이라고 함.

(출처: https://www.researchgate.net/figure/Comparison-of-ROIAlign-and-ROIPool_fig3_380755265)

ROIPool
ROIAlign



