[PascalVOC]

spring·2020년 11월 9일

PascalVOC는 표준화된(표준화가 되고 싶은) 이미지 데이터 세트 이다.
VOC 는 2005년부터 2012년 까지 데이터를 제공하며, 많은 딥러닝 툴의 성능 평가 지표로 사용되고 있다. 주로 2007과 2012를 사용하며 2007은 train,valid,test 모두 제공되지만 2012는 train,valid만 제공하며 test는 이미지 파일만 있고 Ground Truth는 없다.

2012의 test는 서버에 직접 결과를 업로드 하여 성능을 측정 받을 수 있다.
이 부분은 나중에 알아보고, 먼저 VOC 폴더의 구조부터 알아본다.

2007이던 2012던 train-valid 던 test던 압축을 풀면 내용은 아래와 같다.

┌ VOCdevkit
     └ VOC2007
         ├ Annotations
         ├ ImageSets
         │    ├ Layout
         │    ├ Main
         │    └ Segmentation
         ├ JPEGImages
         ├ SegmentationClass
         └ SegmentationObject

태깅 정보

Annotations 폴더가 바로 태깅 데이터가 들어있는 폴더이다.
이 폴더는 이미지 파일과 같은 이름으로 확장자만 xml로 태깅정보를 담고 있는데,

xml로 깔끔하게 정리가 잘 되어 있다. 보고자 하는 Object Detection의 BBox는 <object> 태그 안에 있다.
단순히 이름과 BBox 만이 아닌 전/후면 정보 난이도 , 가려짐 정보 등이 존재 한다.

이 정보를 가공해서 원하는 포맷으로 만들면 된다.

딥러닝을 하면서 제일 짜증나는게 같은 Object Detection 이라도 전부 포맷이 다른점이다. DataSet 마다도 다르고, DNN Library 마다도 다르다.
왜 표준 표준 하는지 직접 겪어보면 알게 된다. 표준이 없을 법도 한것이 이미지의 정보가 BBox 하나뿐이 아닌점도 있고해서 그런듯 하다.