object instance segmentation을 위한 framework
object detection과 동시에 각 instance마다 높은 품질의 segmentation mask 생성
Faster R-CNN의 확장된 방법이라고 한다.
이 논문에서의 목표는 instance segmentation을 위한 프레임워크를 만드는 것
Our goal in this work is to develop a comparably enabling framework for instance segmentation.
instance segmentation이 challenging 한 이유는 다음과 같다.
이는 결국 classical computer vision task인 object detection과 semantic segmentation을 결합하는 것. Mask R-CNN을 이용하면 복잡한 방법을 사용하지 않고도 가능하다고 한다.
- object detection : to classify individual objects and localize each using a bounding box
- semantic segmentation : to classify each pixel into a fixed set of categories without differentiating object instances

Mask R-CNN은 Faster R-CNN을 확장하여 각 RoI(Region of Interest)에 대한 segmentation masks를 예측하는, pixel to pixel 방식의 작은 FCN branch를 추가한 것이라고 한다. 해당 branch는 기존의 classification and bounding box regression branch와는 병렬로 작동한다.
( Fig.1 을 보면, 먼저 classification과 bounding box 생성 이후 각 bounding box를 RoI로 삼아 segmentation mask를 추출한다. )
- pixel to pixel 방식 : 화면의 각 픽셀을 일대일로 다른 픽셀에 매핑하는 방식
Mask R-CNN은 Faster R-CNN 프레임워크를 기반으로 구현 및 학습이 간단하고, mask branch는 계산 부하가 적다고 한다(small computational overhead).
Faster R-CNN의 네트워크 입출력 간 픽셀 정렬 문제를 해결하기 위해 RoIAlign layer를 추가
마스크 예측과 클래스 예측을 분리 : (논문 보면서 무슨뜻인지 이해해보자)