Ai tech Day34

Lee·2021년 3월 12일

네이버 커넥트 부스트 캠프

instance/panoptic segmentation and landmark localization

Instance segmentation

What is instance segmentation?

Fundamental image recognition tasks

Instance segmenters

Mask R-CNN

Two-stage 구조

기존의 R-CNN의 RoI pooling에서는 정수 좌표에서만 feature를 뽑았지만, RoIAlign은 interpolation을 통해서 정교한 소수점 pixel level의 pooling을 지원한다.

기존의 head들(class, box) 옆에 mask branch가 하나 더 있다. 7x7에서 14x14로 upsampling하고, channel dimension은 256으로 줄어든다. 그리고 최종적으로 80개의 class를 고려해서 binary mask를 prediction하는 구조를 갖고 있다. 하나의 bounding box에 대해서 일괄적으로 모든 class에 대한 mask를 일단 생성한다. 그리고 classification head에서 class의 예측 결과가 나오면 이 결과를 이용해서 어떤 mask를 참조할지 선택한다.

Summary of the R-CNN family