- 기존 Faster R-CNN RPN의 RoI 에 대해 Classfication 과 BBR 을 수행하던 것에 Mask Branch 를 추가 한 것이다.
- Faster R-CNN 은 RoI Pooling 을 사용 하였지만, 각 객체의 Spatial 정보 손실 방지를 위하여 RoIAlign 을 사용한다.
Mask Branch
- Pixel 단위로 Classification 을 하기 때문에, Detection Task 보다 더 정교한 Spatial layout 이 필요하다.
- Mask Brach 는 이를 위해 여러 개의 Conv Layer 로 구성된 FCN 구조를 가진다.
각 RoI 에 대해 Class 별로 Binary Mask 를 출력한다.
이후 Classification branch 에서 가장 높은 score의 class 에 해당하는 mask feature map 을 최종 선정한다.
- FPN 구조를 사용한다.
- Pyramid Feature Map 중 가장 deep 한 Feature Map 인 P3 는 Protonet 의 INPUT이 되고, Prediction Head 는 모든 Feature Map을 INPUT 으로 사용한다.
- Prediction Head 에서는 Classification, BBR, Coefficient branch 가 진행된다.
- Protonet 에서 생성된 Prototype 들은 coefficient 값에 따라 서로 더하거나 뺴는 연산을 수행하여 특정 Instance 만 activate 하도록 조정한다.