[23 하계 모각코] 4회차 목표 및 결과

vvon_joon·2023년 7월 29일
0

(23) Summer Study

목록 보기
5/7

목표

4회차: 23/07/29 13:00~16:00
계획: YOLO 논문 분석 (2)
방향: 'A COMPREHENSIVE REVIEW OF YOLO: FROM YOLOV1 AND
BEYOND' 논문 분석

결과

YOLOv3(YOLOv3-spp)

J. Redmon and A. Farhadi, “Yolov3: An incremental improvement,” arXiv preprint arXiv:1804.02767, 2018

  • Developments
    • Bounding Box Prediction
      • 이전과 같이 txt_x, tyt_y(bbox 중심 좌표), twt_w, tht_h(bbox의 너비와 높이)를 예측
      • tot_o(confidence score) 대신에 objectness score를 도입 → logistic regression을 적용해 계산
        • ground truth와 가장 많이 겹치는 bbox에 대해 1, 나머지는 0
        • 각 ground truth에 anchor box를 오직 하나만 배정
    • Class Prediction: softmax 대신에 binary cross-entropy를 적용
      • binary cross-entropy는 multi-label classification을 수행하기 위해 독립적인 logistic classifier를 학습하기 위한 용도로 사용
      • 이로써 같은 bbox에 여러 label을 적용 가능 → e.g. person, man
    • New Backbone: Darknet-53을 backbone으로 사용
    • Spatial Pyramid Pooling(SPP): 여러 크기의 max pooling layer를 concatenate하는 SPP block을 적용 → receptive field를 늘림
    • Multi-scale Prediction
      • 다양한 크기의 feature를 추출해서 이에 대한 예측을 수행

      • network 중간에서 feature를 추출해 이를 upsample한 후 concatenate하는 방식

      • 다양한 크기의 객체를 detect하고, 적은 물체애 대한 정확도를 개선하는 데 도움

    • Bounding Box Priors: 이전과 같이 k-means clustering을 적용해 anchor box를 선정하되, 각 grid마다 3개를 선정
  • Architecture
    • Darknet-53을 backbone으로 사용(53개의 conovlutional layer)

    • max pooling을 strided convolution으로 대체

    • residual network 추가

YOLOv4

A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, “Yolov4: Optimal speed and accuracy of object detection,” arXiv preprint arXiv:2004.10934, 2020

  • Developments
    • An Enhanced Architecture with Bag-of-Specials(BOS) Integration
      • Bag-of-Specials(BOS): 추론 시의 비용을 약간 증가시켜 정확도를 개선하는 기법 e.g. receptive field 키우기, feature 결합, NMS
      • CSPNet: Darknet-53에 cross-stage partial connection과 Mish activation function을 결합한 네트워크를 backbone으로 활용
        • Cross-Stage Partial Connection: skip connection 중 하나로 CSP stage에서 두 부분으로 나눠 네트워크를 통과한 뒤에 특정 레이어에서 결합하는 것 → parameter를 효율적으로 사용
        • Mish Activation Function: sigmoid와 ReLU의 특성을 결합한 activation function
      • PANet(Path Aggregation Network)
        • FPN을 개선한 아키텍처로, FPN에서는 bottom-up pathway의 피라미드 구조를 통해 다양한 해상도에서의 feature를 추출
        • top-down pathway를 추가로 도입해 high-level feature를 low-level feature와 concatenate
        • attention module을 추가로 도입해 feature map간의 상호 의존성 강화
      • SPP: 추론 시간에 영향을 주지 않고, receptive field를 키움
    • Integrating Bag-of-Freesbies(BoF) for an Advanced Training Approach
      • Bag-of-Freesbies(BoF): 학습 방법만 변경해 학습 비용은 증가하지만 추론 시간에는 영향을 주지 않으면서 모델의 정확도를 개 e.g. 데이터 증강
      • Mosaic Augmentation: 네 개의 이미지를 하나로 결합하는 증강법
      • DropBlock: dropout을 개선한 regularization 기법
      • Class Label Smoothing: one-hot encoding labeling을 개선
      • CIoU Loss: IoU에 ground truth bbox와 예측된 bbox의 중심 간의 거리를 반영하여 개선
      • CmBN(Cross mini Batch Normalization): 기존의 batch normalization을 개선한 regularization 기법
        • 객체 단위 정규화, 배치 크기를 동적으로 조절
    • Self-Adversarial Training(SAT): 모델을 robust하게 만들기 위해 기존 data에 노이즈 추가하거나 변형을 가해 학습시키는 것
    • Hyperparameter Optimization with Generic Algorithms
  • Architecture CSPNet-PANet-SPP
    BackboneNeckHead
    CSPDarknet53SPP, PANYOLOv3
profile
김찬호 화이팅

1개의 댓글

comment-user-thumbnail
2023년 7월 29일

좋은 정보 감사합니다

답글 달기