[Boostcamp AI Tech] [U-stage] 7주차 Day 3 학습 기록

bluegun·2021년 9월 16일
0

AI Tech 2기 활동

목록 보기
31/87

학습 내용


Instance segmentation

  • 앞에서 배운 semantic segmentation, object detection 분야는 2018년 이후로 연구가 딱히 진행되고 있지 않다. 이는 더 좋은 기술인 Instance segmentation과 panoptic segmentation이 나왔기 때문이다.
  • Instance segmentation : Semantic segmentation + Instance 구분
    • Instance 구분까지 하기에 semantic segmentation보다 더 유용하다.
  • Instance 구분은 Object detection 기반으로 할 수 있었기에, 초창기 Instance segmentation model은 object detection 기반으로 한 것들이 많다.

Mask R-CNN

  • Faster R-CNN과 유사하지만 좀 더 개선된 부분이 있다.

  • 기존 Faster R-CNN의 RoI pooling은 pixel level의 정수 좌표에서만 feature를 뽑았다면, Mask R-CNN에선 RoIAlign이란 새로운 pooling layer을 통해, Interpolation을 통한 소숫점 단위의 feature 추출이 가능해졌다.

  • Mask R-CNN : Faster R-CNN + Mask branch

    • 기존의 classification, box regression에 더해 새로운 mask branch를 만들어, (1414256) 으로 upsampling한 후, class 개수만큼의 mask를 생성, clasification 부분을 참고 해 mask를 선택한다.
      • bbox나 clasification에서 대략적인 feature map의 정보를 알 수 있으므로, 이를 활용해 mask로 정확한 segmentation을 하는 느낌

YOLACT

  • Mask R-CNN이 2-stage 구조이면, YOLACT는 1-stage 구조이다.

  • Prototypes라는 mask를 합성해낼 수 있는 base segmentation들을 생성해낸다.

  • Instance마다 linear combination coefficients 를 예측한다.

    • 생성한 base들로 coefficient를 참고해 base들 중 일부는 더하고 일부는 빼고 이런식으로 response map을 만든다.

YolactEdge

  • keyframe feature를 다음 frame에 전달해서 성능을 유지하면서 연산량을 줄인 방법

panoptic segmentation

Instance segmentation은 배경에 대한 정보는 없었는데, panoptic segmentation은 Instance segmentation에 더해 배경까지 표현한다.

UPSNet

  • Instance Head와 Semantic Head로 나뉘어 연산한 후 Panoptic Head에서 이를 종합하여 최종 logit을 생성한다.
    • semantic head에서 배경을 나타내는 mask response는 바로 Panoptic logit으로 보낸다.
    • Instance head의 output과 semantic head의 물체를 나타내는 mask를 sum하여 Panoptic logt으로 보낸다.
      • Instance가 image의 어느 부분에 있는 지를 확인
    • unknown class는 따로 panoptic logit으로 보낸다.

VPSNet

Landmark localization

얼굴이나 사람의 몸통 등 중요하다고 생각 되는 점을 tracking

  • Landmark : 사람이 정해둔 point(keypoint)

  • Coordinate regression : FC layer를 통해 landmark 판별

    • 부정확하고, 일반화가 잘 안된다.
  • Heatmap classification : 한 channel을 하나의 key point 예측 단위로 잡고, 그 key point를 class로 생각해 각 pixel별로 classification을 진행.

    • 성능은 좋은데 연산량이 너무 많다.

Hourglass network

  • FPN과 비슷한 구조를 여러 개 쌓은 형태
    • U-Net에선 concatenation을 했지만, Hourglass module에선 + 연산을 하고, skip connection을 할 때 conv 연산을 진행한다.

0개의 댓글