ResNet50 -> 약 2주 동안 GPU *4
그래서 AlexNet, VGG, ResNet 등 대표적인 CNN들은 Pretrain 된 모델이 배포되어 있음.
https://youtu.be/jqNCdjOB15s
=>동빈나의 강의로 해당 강의와 내용들이 정확히 일치하며 멋사 강의에는 언급되지 않는 1-stage / 2-stage로 모델을 구별하는 방법도 제시함.
1-stage는 detection(localization)과 classification을 한번에 2-stage는 순차적으로 해결.
최초로 CNN을 object detection에 성공적으로 활용한 모델
R-CNN의 작동
=> R-CNN이 무엇? Region with CNN 이름의 뜻 대로 부분별로 CNN을 작동 시키는 것을 말함.
1) 이미지에서 Region Proposoal을 찾는다.
=> Selective search라는 알고리즘을 이용해 사진에서 물체가 있을 거 같은 2000개의 bounding box 후보를 찾음.
=> 요즘 안쓴다 그냥 그렇다고만 알고 넘어가십숑
2) 각 bounding box별로 warping을 통해 이미지 크기를 동일하게 만든 후, CNN을 돌려서 feature 값들을 뽑음.
3) CNN feature로 SVM을 돌려서 classification
CNN feature를 이용하여 bounding box regression도 같이 진행(linear regression)
=> 사물의 좌표를 찾아내기 위해 regression을 사용
성능(PASCAL VOC 2012 dataset - 20 class detection)
53.3% mAP
R-CNN의 문제점
Region proposal 마다 CNN을 실행해야해서 오래 걸림(frame 당 13초)
복잡한 구성(selective search, CNN, SVM)
Fast R-CNN의 작동
1) Selective search를 이용해 region proposal을 찾음
2) 이미지 전체를 CNN에 넣어서 feature map을 얻음
=> CNN의 특징상 위치 데이터가 포함되어 있어 가능
3) Feature map에서 각 region proposal 에 대응되는 region of interst의 feature를 추출
4) 각 Rol feature 마다 fc layer를 이용하여 classification과 bbox regression을 수행
Fast R-CNN의 장점
빠른 속도 - frame 당 2.3초
=> 많이 개선되긴 했지만 실시간으로 처리되는 어플리케이션을 만드는데는 한계가 있음
간소한 구조와 학습 과정
PASCAL VOC 2012 : 66% mAP
SPPNet
feature map을 서로 다른 크기의 여러 종류의 grid로 자른다는 것.
=> 뭔 소리인지 모르겠음. 시간 될 때, 아래의 유튜브 보기.
https://www.youtube.com/watch?v=bbKLTeI30vc
YOLO
Faster R-CNN의 두가지 과정을 하나로 섞음
그래서 속도가 45 fps로 엄청 빨라짐
대신 성능은 조금 낮음 : 63.4% mAP
현재 yolo V6까지 나온듯