[Boostcamp AI Tech] [U-stage] 7주차 Day 3 학습 기록

bluegun·2021년 9월 16일

AI Tech 2기 활동

목록 보기

31/87

앞에서 배운 semantic segmentation, object detection 분야는 2018년 이후로 연구가 딱히 진행되고 있지 않다. 이는 더 좋은 기술인 Instance segmentation과 panoptic segmentation이 나왔기 때문이다.
Instance segmentation : Semantic segmentation + Instance 구분
- Instance 구분까지 하기에 semantic segmentation보다 더 유용하다.
Instance 구분은 Object detection 기반으로 할 수 있었기에, 초창기 Instance segmentation model은 object detection 기반으로 한 것들이 많다.

Faster R-CNN과 유사하지만 좀 더 개선된 부분이 있다.
기존 Faster R-CNN의 RoI pooling은 pixel level의 정수 좌표에서만 feature를 뽑았다면, Mask R-CNN에선 RoIAlign이란 새로운 pooling layer을 통해, Interpolation을 통한 소숫점 단위의 feature 추출이 가능해졌다.
Mask R-CNN : Faster R-CNN + Mask branch
- 기존의 classification, box regression에 더해 새로운 mask branch를 만들어, (1414256) 으로 upsampling한 후, class 개수만큼의 mask를 생성, clasification 부분을 참고 해 mask를 선택한다.
  - bbox나 clasification에서 대략적인 feature map의 정보를 알 수 있으므로, 이를 활용해 mask로 정확한 segmentation을 하는 느낌

Mask R-CNN이 2-stage 구조이면, YOLACT는 1-stage 구조이다.
Prototypes라는 mask를 합성해낼 수 있는 base segmentation들을 생성해낸다.
Instance마다 linear combination coefficients 를 예측한다.
- 생성한 base들로 coefficient를 참고해 base들 중 일부는 더하고 일부는 빼고 이런식으로 response map을 만든다.

Instance segmentation은 배경에 대한 정보는 없었는데, panoptic segmentation은 Instance segmentation에 더해 배경까지 표현한다.

Instance Head와 Semantic Head로 나뉘어 연산한 후 Panoptic Head에서 이를 종합하여 최종 logit을 생성한다.
- semantic head에서 배경을 나타내는 mask response는 바로 Panoptic logit으로 보낸다.
- Instance head의 output과 semantic head의 물체를 나타내는 mask를 sum하여 Panoptic logt으로 보낸다.
  - Instance가 image의 어느 부분에 있는 지를 확인
- unknown class는 따로 panoptic logit으로 보낸다.

얼굴이나 사람의 몸통 등 중요하다고 생각 되는 점을 tracking

Landmark : 사람이 정해둔 point(keypoint)
Coordinate regression : FC layer를 통해 landmark 판별
- 부정확하고, 일반화가 잘 안된다.
Heatmap classification : 한 channel을 하나의 key point 예측 단위로 잡고, 그 key point를 class로 생각해 각 pixel별로 classification을 진행.
- 성능은 좋은데 연산량이 너무 많다.

FPN과 비슷한 구조를 여러 개 쌓은 형태
- U-Net에선 concatenation을 했지만, Hourglass module에선 + 연산을 하고, skip connection을 할 때 conv 연산을 진행한다.