https://arxiv.org/pdf/2202.03822.pdf
classfication은 coarse-grained 와 fine grained classification으로 나뉜다.
coarse- grained는 새와 개를 구별하는 거라면, fined- grained는 새의 종, 개의 종등을 구별하는 것이다. ResNet, EfficientNet,Vision Transformer(ViT) 등이 perform well
plugin module로 통합된 여러 backbone을 사용하고, CNN-based or Transformer based network를 사용
본 논문에서는 fine grained classification을 위해 세가지 카테고리로 나누었다.
첫 번째 타입은 Region Proposal Network(RPN)이다. NTS-Net,FDL, StackedLSTM이 포함된다.
두 번째 타입은 feature map을 강화하는 것으로 CAL, MA-CNN, MAMC,API-Net, WS-DAN등을 사용한다.
세 번째 타입은 attention-map을 사용하는 것이다. TransFG, FFVT 등을 사용하낟.
첫번째, 두번째 타입으로 CNN, ResNet,DenseNet,EfficientNet을 사용하였다.
세번째 타입으로는 ViT을 기반으로 하였다.
region을 찾은 이후에는 다시 input으로 croping, resizing된 original input과 feature maps를 대입한다. 이 접근의 단점은 two-stage혹은 multi-stage의 복잡한 구조로 end-to-end구조로 작동한다는 것이다.
feature-map과 다른 object들과의 position을 잘 이해하기 위해 FGVC method를 사용한다. From Faster-RCNN, YOLO, RetinaNet
feature map이 많은 의미를 가짐에도 불구하고 human annotated region information에 의존한다. 그러므로 Weakly Supervised Object Detection(WSOD) method를 사용한다. such as WSDDN, OCIR, WCCN.
WSOD method는 물체의 위치를 반영하는 feature map을 가진다.
또한 plugin module에는 여러 backbones를 더했다. CNN-based or Transformer-based architecture등. 플러그인 모듈의 output은 pixel-lebel feature map을 내보낸다.
여러 사이즈의 다양한 key feature을 찾기 위해 Feature Pyramid Network(FPN)을 사용한다. object detection에 중요
Divided object features of different scales will be fused for classification
prediction. while the correction of the background area is aimed at a flat probability distribution
A Backbones
https://github.com/chou141253/FGVC-PIM/blob/master/readme.md
++backbone
백본은 입력 이미지를 feature map으로 변형시켜주는 부분이다.
최근 detector가 백본과 헤드로 이루어져 있는데 헤드는 백본에서 추출한 feature map의 location 작업을 수행하는 부분이다. 헤드에서 class를 예측하고 bounding box 작업이 이루어진다
헤드는 Dense prediction, sparse prediction으로 나뉘는데 이는object detection의 종류인 1-stage인지 2-stage인지와 직결된다.
sparse detection 헤드를 사용하는 two-stage detector는 대표적으로 faster-RCNN, R-FCN드잉 있다.
predict classes와 bounding box regression 부분이 분리되어 있는 것이 특징이다.
Dense prediction 헤드를 사용하는 one- stage detector는 대표적으로 YOLO-SSD등이 있따.
넥(Neck)는 백본과 헤드를 연결하는 부분으로 feature map을 refinement(정제), reconfiguration(재구성)한다. 대표적으로 FPN,PAN,BiFPN, NAS-FPN 등이 있다.