[1강] mAP
mAP가 어떻게 계산될 수 있는 지 완벽하게 이해하고 있는가?
PR curve는 confidence가 높은 순서대로 정렬하고 점수가 높은 순서대로 precision과 recall을 구한다. 여기서 Confidence에 매기는 threshold에 따라 Recall과 precision이 달라질 수 있다는 것을 알아두자
이 경우에는 threshold 70
그러면 x축은 recall, y축은 confidence로 해서 plot을 찍고 pr curve를 단조적으로 감소하는 그래프로 만든다.
그 후에 그래프 밑의 면적을 구하면 AP이다.
그 후에 각 클래스별 AP를 구하고 이를 평균내면 mAP이다.
[2강] 2 Stage detectors – RCNN, SPP, FastRCNN, FasterRCNN
SPP(RoI Pooling)에 대해 완벽하게 이해하고 있는가?
roi pooling은 fast rcnn에서 원하는 위치의 feature를 max pooling하기 위한 Layer다→고정된 벡터를 얻고 강제 warping을 하지 않는다.
RoI projection에 대해 완벽하게 이해할 수 있는가?
FasterRCNN중 RPN에 대해 완벽하게 이해하고 있는가?
기존에 fast rcnn은 selective search(Cpu연산)로 Region proposal을 했기 때문에 end to end가 아니었다. region proposal하는것도 network로 만들어서 학습시키자해서 나온 개념이다. rpn으로 통해 roi를 계산하고 anchor box개념을 사용한다.
hxwx512의 Feture map을 1x1 conv를 통해 binary classification head(hxwx18)와 bbox regression head(hxwx36)로 나눔
Anchorbox에 이해하고 있는가?
RPN의 역할에 대해 이해하고 있는가?
[3강] MMDetection, Detectron2
[4강] FPN, PANet, RFP, BiFPN, NasFPN, AugFPN
[5강] Yolo, SSD, RetinaNet
2 stage와는 다르게 RPN이 없는 1 stage에서 어떻게 박스를 예측하는지 이해하고 있는가?
region proposal을 하지 않고 바로 Localization과 classification이 동시에 진행된다.
영역을 추출하지 않고 전체 이미지를 보기 때문에 객체에 대한 맥락적 이해가 높다
rpn도 어떻게보면 1stage detector, 하지만 classification 안함
Yolo v1에 대해 완벽하게 이해하고 있는가?
SSD
yolov1은 그리드보다 작은 크기의 물체를 검출할 수 없고, 마지막 feature만 사용해 부정확하고 + Fc layer사용해 느림
→ conv layer에 있는 모든 feature map에 대해 detection, fc layer대신 conv layer, anchor box사용(yolov1는 박스 랜덤)
multi scale feature maps: 각 feature map에서 nxnx(#default box x (offset+#class))예측→ 8732 Bbox
yolo v2
Retinanet
[6강] EfficientDet
참고: 부스트캠프 ai tech 9주차 강의 object detection
출처가 명시되지 않은 모든 이미지의 지식재산권은 네이버 커넥트에 귀속됩니다.