[CV] YOLO9000: Better, Faster, Stronger

강동연·2022년 1월 22일

[Paper review]

목록 보기

6/17

🎈 본 리뷰는 YOLO9000 및 리뷰를 참고해 작성했습니다.

Key words

🎈 Joint train algorithm
🎈 Anchor Boxes
🎈 Kmeans
🎈 Darknet-19
🎈 Dataset combination with WordTree

Introduction

✔ Detection Framework는 점점 빨라지며, 정확해 지고 있습니다. 하지만 대부분의 detection 방법론들은 작은 데이터 셋으로 진해 제한적입니다. 반면 classification datasets은 상대적으로 많은 데이터와 카테고리를 가지고 있습니다.

✔ Detection을 위한 큰 데이터를 얻기 어려움으로 , 다양한 데이터 셋의 결합으로 classification과 object detection을 진행합니다. YOLO9000은 실시간 object detector이면서 9000개의 카테고리를 구분하는 방법론입니다.

Better

✔ 기존의 YOLO는 Fast R-CNN과 상대적으로 localization error와 low recall 값이 보여집니다. 그렇기에 우리는 위와 같은 취약점을 보완할 것입니다. 또한 YOLOv2는 정확하고 빠른 네트워크를 목표로 합니다. 그렇기에 simplify network와 make the representation easier to learn 을 목표로 합니다.

Batch Normalization

✔ Batch Normalization은 수렴하는데 중요한 역활을 하며 동시에 다른 정규화 방법론들을 대신할 수 있습니다.

✔ Batch Normalization이란 간단하게 미니배치의 평균과 분산을 이용해 정규와 합니다.또한 신경망 레이어의 중간 중간에 위치해 학습을 진행하며, 감마(Scale), 베타(Shifht)를 통해 비선형성을 유지할 수 있습니다.

✔ Batch Normalization을 통해 2%의 mAP를 성능 향상을 얻을 수 있었습니다.

High Resolution Classifier

✔ 모든 SOTA detection 방법들은 pre-train된 ImageNet을 사용하며, 256x256보다 작은 input image를 사용합니다. YOLO에서는 224x224로 train을 하고, detection시 448 사이즈로 detection을 진행했습니다. 그 결과 네트워크는 새 입력 해상도로 조정해야합니다.

✔ 그래서 YOLOv2에서는 448x448 image를 10 epochs로 fine-tuning을 했고, 그 결과 4%의 mAP 성능 향상을 얻을 수 있었습니다.

Convolutional With Anchor Boxes

✔ 기존 YOLO에서는 bounding box의 좌표를 fully connected layer를 사용해 직접적으로 찾았습니다. 하지만 YOLOv2에서는 fully connected layer을 제거하고, anchor boxes를 사용해 bounding box를 예측합니다.

✔ 먼저 conv layer의 output이 보다 높은 resolution를 가지도록 pooling layer을 제거했습니다. 또한 final feature map 사이즈를 홀수로 만들기 위해 448x448 input images 사이즈 대신 416의 사이즈를 input image로 넣습니다. 큰 객체의 경우 image의 중심에 위치하는 경우가 많은데, 이때 feature map 홀수이면 feature map 내에 하나의 중심 cell이 존재할 수 있습니다. 416x416의 크기에서 32배의 downsampling을 통해 최종적으로 13x13 feature map를 추출할 수 있습니다.

✔ Anchor boxes를 사용해 약간 낮은 정확도를 얻을 수 있었는데, Anchor boxes를 사용하지 않을 때에는 69.5mAP와 81% recall을 얻을 수 있었고, Anchor boxes를 사용할 시 69.2mAP와 88% recall을 얻을 수 있었습니다. 정확도는 조금 내려갔지만, 7% 높은 recall을 얻을 수 있었습니다. 기존의 YOLO는 image당 98 boxes만을 예측했지만, anchor boxes를 사용하면 수천개의 boxes을 얻을 수 있습니다. 비록 낮은 mAP를 기록했지만 recall의 향상은 모델이 개선할 여지가 더 많다는 것을 의미합니다.

Dimension Clusters

✔ Anchor boxes를 사용함으로써 2가지 문제가 있습니다. 먼저 box dimensions are hand picked 된다는 것입니다. 네트워크가 시작할 수 있도록 더 나은 prior를 선택한다마녀 네트워크가 좋은 predict good detection을 수행할 수 있을겁니다. 그래서 k-means 군집 방법을 사용해 bounding box를 set합니다.

✔ 기존의 k-means에서 사용하는 유클리드 거리를 사용하면 더 큰 박스들은 작은 박스들에 비해 큰 에러를 발생시킵니다. 그래서 아래와 같은 방법으로 거리를 계산합니다.

✔ 위의 그래프에서 K=5 일때 모델 복잡성과 높은 recall에 대한 좋은 trade-off 관계를 보입니다.

✔ 위의 표에서 볼 수 있듯이, k=5인 k-means를 사용한 방법이 9개의 Anchor Boxes를 사용한 것보다 높은 Avg IOU를 보여줍니다.

Direct loactaion prediction

✔ YOLO에서 anchor boxes를 사용할 때 발생하는 2번째 이슈는 model instability입니다. 대부분의 instability (x,y) 좌표를 예측할 때 발생하게 됩니다. RPN에서 예측하는 tx, ty 그리고 (x,y) 좌표는 아래의 식과 같이 예측이 됩니다.

✔ 예를 들면 tx = 1이면 오른쪽으로 box가 이동하고, tx = -1이면 왼쪽으로 박스가 이동합니다. 위와 같은 방법은 제약이 없기에 anchor box는 이미지 내의 어떤 지점에도 위치할 수 있습니다. 이로 인해 최적의 값을 찾는데 오래걸릴 수 있습니다.

✔ 위의 문제 해결방안으로 YOLO의 방식을 사용하여 grid cell에 상대적인 위치 좌표를 예측하는 방법을 선택했습니다. $C_x$ , $C_y$ 은 grid cell의 좌상단의 길이입니다(위의 사진과 같이). bounding box regression을 통해 얻은 $t_x$ , $t_y$ 값에 logisic regression 함수를 적용하여 0~1 사의 값을 가지도록 조정합니다.

✔ dimension cluster와 anchor box 좌표를 직접 예측함으로서 5%의 recall 성능 향상을 얻을 수 있었습니다.

Fine-Grained Features

✔ YOLO v2는 최종적으로 13x13 feature map를 추출합니다. 이것은 큰 객체를 예측하는데 수월한 반면 작은 물체를 예측하는데 어려움이 있습니다. 이런 문제를 해결하기 위해 앞에 있는 26x26 resolution layer에 passthoriugh layer를 통해 가지고 옵니다. 위의 그림과 같은 26x26x512 feature map를 4개로 나눠 concatenate 해줍니다. 이후 최종적으로 원래의 13x13 feature map과도 concatenate 합니다. 위왁 같은 방법으로 fine-grain feature에 접근할 수 있었고, 결과적으로 1%의 성능 향상을 얻을 수 있었습니다.

Multi-Scale Training

✔ YOLOv2는 기존의 모델과 다르게 오직 conv layer와 pooling layer만을 사용하기에, 다양한 사이즈의 input image를 받을 수 있습니다. 논문에서는 YOVL v2가 다양한 images들에 robust하기 원합니다.

✔ 그래서 image 사이즈를 고정하는 것이 아닌, 10 batches 마다 랜덤하게 새로운 image 사이즈를 선택합니다. YOLOv2는 32배의 downsampling을 진행하기에 {320,352,..608} 32의 배수 크기 만큼에서 랜덤하게 선택합니다. 결과적으로 위의 표와 같은 결과를 도출하게 됩니다.

Faster

✔ YOLOv2에서는 빠른 속도와 정확도를 위해서 Googlenet 아키텍처를 커스텀화 했으며, 그 결과 VGG-16보다 빠르고 덜 복잡한 모델 Darknet-19를 만들었습니다.

Darknet-19

✔ Darknet-19은 9개의 Conv layer와 5개의 maxpooling layer을 가지고 있으며, 위의 구조를 따르고 있습니다. 마지막에는 GAP를 FCN 대신 사용하고 있습니다. Darknet-19은 ImageNet에서 72.9% top-1 accuracy, 91.2% top5 accuracy를 보여줍니다.

Training for classification

✔ Standard ImageNet 1000 class classification dataset을 SGD를 사용해 160 epochs만큼 학습을 진행했습니다. Training에는 random crops, rotations, and hue, saturation and exposure shifts를 사용해 data augementation을 진행했습니다. 또한 448x448 이미지 사이즈를 10 epochs만큼 fine-tuning을 진행했으며, 그 결과 top-1 정확도는 76.5%, top-5 정확도는 93.3%의 성능을 보였습니다.

Training for detection

✔ Detection에서는 Darknet-19의 마지막 Conv layer를 제거하고, 3x3x1024 conv layer로 대체하고, 1x1 conv layer를 추가합니다. 이때 VOC에서 1x1 conv layer의 channel 수는 125로, 이는 각 cell 마다 5개의 bounding-box와 5개의 좌표 그리고 20개의 class로 총 125 channel 수를 가집니다. 그리고 passthrough layer 더함으로써 fine grain features들을 예측할 수 있습니다.

Stronger

✔ 논문에서는 detection과 classification datasets으로 결합된 datasets의 학습을 통해 더 많은 class를 예측하는 YOLO9000을 소개합니다. Classification image에서는 YOLO9000는 구조의 분류 특정 부분에서의 loss만 역전파합니다. 기본적으로 Detection datasets에서는 일반적인 라벨뿐이 없습니다. 예를 들면 "dog"와 "boat"와 같은 라벨뿐이 없다면 classification datasets에서는 "Norfolk terrier"...등등과 같이 더 구체적인 라벨을 가지고 있습니다.

✔ 위와 같은 문제해결을 위해 YOLO9000에서는 각 데이터를 결합한 상호 배타적이지 않은 multi-label model을 사용합니다.

Hierarchical classification

✔ ImageNet은 WordNet 이라는 언어 데이터셋을 기반으로 만들어졌습니다. WordNet은 tree 형태가 아닌 directed graph 형식으로 이루어져있습니다. 왜냐하면 언어는 복잡하기에 단순히 트리로 표현하기 어렵기 때문입니다. 예를 들어 "dog"는 "canine"에도 속하고, "domestic animal"에도 속하기 때문입니다. YOLO9000는 이를 단순화해서 WordNet기반으로 계층적인 tree를 구조화했습니다.

✔ WordTree를 사용해 classification을 수행할 때는 위와 같이 "terrier"라고 예를 들면 각각의 "terrier"에 대한 조건부 분포를 계산합니다.

✔ 그리고 "Norfolk terrier"에 대해 계산하면 위와 같이 모든 조건부 분포를 곱합니다.

✔ ImageNet 데이터셋을 통해 WordTree를 구성할 경우, 최상위 노드부터 최하위 노드까지 총 카테고리를 합치면 1369개의 범주가 존재합니다. 369개의 카테고리가 늘어났음에도 불구하고 71.9%의 top-1 accuracy와 90.4%의 top-5 accuracy라는 결과를 얻을 수 있었습니다.

Join classification and detection

✔ COCO datasets과 ImageNet을 결합한 9418개의 범주를 가지는 WordTree를 구성할 수 있습니다. ImageNet이 COCO datasets보다 훨씬 더 많은 데이터를 가지고 있으므로, COCO dataset를 oversampling해 4:1 비율로 데이터셋을 구성했습니다.

✔ 위의 datasets을 가지고 YOLO9000을 train합니다. YOLO v2의 아키텍쳐를 기반으로 5개가 아닌 3개의 anchor boxes를 사용해 학습합니다. detection dataset의 image는 일반적인 방법으로 detection loss를 backward pass하고, classification loss의 경우에는 특정 범주에서 상위 범주에 대해서만 loss를 계산합니다. classification datasets image의 경우에는 classification loss에 대해서만 backward pass를 수행하며, 이때 GT box와의 IoU 0.3 이상은 경우만 역전파를 수행합니다.

Conclusion

✔ 논문에서는 YOLO v2와 YOLO 9000, 실시간 detection 구조를 소개합니다. YOLO v2는 SOTA이며 다른 detection 네트워크보다 빠른 속도를 가지고 있습니다. 또한 다양한 detection datasets에 대해서도 학습이 가능합니다. YOLO 9000은 9000개의 객체 카테고리에 대해 detection과 classification이 가능합니다. 그리고 계층적 classifciation을 통한 dataset의 결합은 classification과 segmentation domain에 유용할 것입니다.

Reference

강동연

Maybe I will be an AI Engineer?

이전 포스트

[CV] Feature Pyramid Networks for Object Detection(FPN) review

다음 포스트