목표
4회차: 23/07/29 13:00~16:00
계획: YOLO 논문 분석 (2)
방향: 'A COMPREHENSIVE REVIEW OF YOLO: FROM YOLOV1 AND
BEYOND' 논문 분석
결과
YOLOv3(YOLOv3-spp)
J. Redmon and A. Farhadi, “Yolov3: An incremental improvement,” arXiv preprint arXiv:1804.02767, 2018
- Developments
- Bounding Box Prediction
- 이전과 같이 tx, ty(bbox 중심 좌표), tw, th(bbox의 너비와 높이)를 예측
- to(confidence score) 대신에 objectness score를 도입 → logistic regression을 적용해 계산
- ground truth와 가장 많이 겹치는 bbox에 대해 1, 나머지는 0
- 각 ground truth에 anchor box를 오직 하나만 배정
- Class Prediction: softmax 대신에 binary cross-entropy를 적용
- binary cross-entropy는 multi-label classification을 수행하기 위해 독립적인 logistic classifier를 학습하기 위한 용도로 사용
- 이로써 같은 bbox에 여러 label을 적용 가능 → e.g. person, man
- New Backbone: Darknet-53을 backbone으로 사용
- Spatial Pyramid Pooling(SPP): 여러 크기의 max pooling layer를 concatenate하는 SPP block을 적용 → receptive field를 늘림
- Multi-scale Prediction
-
다양한 크기의 feature를 추출해서 이에 대한 예측을 수행
-
network 중간에서 feature를 추출해 이를 upsample한 후 concatenate하는 방식
-
다양한 크기의 객체를 detect하고, 적은 물체애 대한 정확도를 개선하는 데 도움
- Bounding Box Priors: 이전과 같이 k-means clustering을 적용해 anchor box를 선정하되, 각 grid마다 3개를 선정
- Architecture
YOLOv4
A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, “Yolov4: Optimal speed and accuracy of object detection,” arXiv preprint arXiv:2004.10934, 2020
- Developments
- An Enhanced Architecture with Bag-of-Specials(BOS) Integration
- Bag-of-Specials(BOS): 추론 시의 비용을 약간 증가시켜 정확도를 개선하는 기법 e.g. receptive field 키우기, feature 결합, NMS
- CSPNet: Darknet-53에 cross-stage partial connection과 Mish activation function을 결합한 네트워크를 backbone으로 활용
- Cross-Stage Partial Connection: skip connection 중 하나로 CSP stage에서 두 부분으로 나눠 네트워크를 통과한 뒤에 특정 레이어에서 결합하는 것 → parameter를 효율적으로 사용
- Mish Activation Function: sigmoid와 ReLU의 특성을 결합한 activation function
- PANet(Path Aggregation Network)
- FPN을 개선한 아키텍처로, FPN에서는 bottom-up pathway의 피라미드 구조를 통해 다양한 해상도에서의 feature를 추출
- top-down pathway를 추가로 도입해 high-level feature를 low-level feature와 concatenate
- attention module을 추가로 도입해 feature map간의 상호 의존성 강화
- SPP: 추론 시간에 영향을 주지 않고, receptive field를 키움
- Integrating Bag-of-Freesbies(BoF) for an Advanced Training Approach
- Bag-of-Freesbies(BoF): 학습 방법만 변경해 학습 비용은 증가하지만 추론 시간에는 영향을 주지 않으면서 모델의 정확도를 개 e.g. 데이터 증강
- Mosaic Augmentation: 네 개의 이미지를 하나로 결합하는 증강법
- DropBlock: dropout을 개선한 regularization 기법
- Class Label Smoothing: one-hot encoding labeling을 개선
- CIoU Loss: IoU에 ground truth bbox와 예측된 bbox의 중심 간의 거리를 반영하여 개선
- CmBN(Cross mini Batch Normalization): 기존의 batch normalization을 개선한 regularization 기법
- 객체 단위 정규화, 배치 크기를 동적으로 조절
- Self-Adversarial Training(SAT): 모델을 robust하게 만들기 위해 기존 data에 노이즈 추가하거나 변형을 가해 학습시키는 것
- Hyperparameter Optimization with Generic Algorithms
- Architecture CSPNet-PANet-SPP
Backbone | Neck | Head |
---|
CSPDarknet53 | SPP, PAN | YOLOv3 |
좋은 정보 감사합니다