Object Detection과 Segmentation Dataset

타키탸키·2021년 8월 13일
0

Vision

목록 보기
5/11

🎰 Object Detection 주요 데이터 세트 소개

Object Detection 주요 Dataset

  • PASCAL VOC
    • XML Format
    • 20개의 오브젝트 카테고리
  • MS COCO
    • json Format
    • 80개의 오브젝트 카테고리: 여러가지 이미지
    • PASCAL의 평이한 오브젝트 문제 해결
  • Google Open Images
    • csv Format
    • 600개의 오브젝트 카테고리
  • 많은 Detection과 Segmentation 딥러닝 패키지가 위 Dataset들을 기반으로 Pretrained 되어 배포

🎰 Pascal VOC 데이터 세트의 이해

PASCAL VOC 2012

  • Classification / Detection
    • classification
      • For each of the twenty classes, predicting presence/absence of an example of that class in the test image
    • detection
      • Predicting the bounding box and label of each object from the twenty target classes in the test image
  • Segmentation
    • Generating pixel-wise segmentations giving the class of the object visible at each pixel, or "background" otherwise
  • Action Classification
    • Predicting the action(s) being performed by a person in a still image
  • Person Layout
    • Predicting the bounding box and label of each part of a person (head, hands, feet)

Annotation이란?

  • 이미지의 Detection 정보를 별도의 설명 파일로 제공하는 것
  • Object의 Bounding Box 위치나 Object 이름 등을 특정 포맷으로 제공
    • XML, json, csv...

PASCAL VOC Dataset 구조

  • VOC 2012 기준
    • Annotations
      • XML 포맷
      • 개별 xml 파일은 한 개의 image에 대한 Annotation 정보를 가짐
      • a.xml
      • 확장자 xml을 제외한 파일명은 image 파일명(jpg 제외)과 동일하게 매핑
    • ImageSet
      • 어떤 이미지를 train, test, trainval, val에 사용할 것인지에 대한 매핑 정보를 개별 오브젝트 별로 파일을 가짐
    • JPEGImages
      • Detection과 Segmentation에 사용될 원본 이미지
      • a.jpg
    • SegmentationClass
      • Semantic Segmentation에 사용될 masking 이미지
    • SegmentationObject
      • Instance Segmentation에 사용될 masking 이미지

Annotation 파일 예시

  • Annotation 파일 2007_000032.xml 파일 일부
    • 2007_000032.jpg 파일에 대한 Annotation 정보를 가지고 있음
    • depth: rgb(3)
    • xmin: 좌상단 x좌표 / xmax: 우하단 x좌표

🎰 MS-COCO 데이터 세트의 이해

MS-COCO Dataset 소개

  • 가장 대표적인 Dataset
  • 80개의 Object Category
  • 30만 개의 image들과 150만 개의 object들
    • 하나의 image에 평균 5개의 object들로 구성
  • Tensorflow Object Detection API 및 많은 오픈 소스 계열의 주요 패키지
    • COCO Dataset으로 Pretrained된 모델 제공

MS-COCO Dataset 오브젝트 카테고리

  • 실제 카테고리 수는 수는 80개
    • ID만 있고 값이 없는 경우가 있다

MS-COCO Dataset 다운로드

  • 다운로드
    • Dataset >> Download
  • 일반적으로 2017 Dataset 사용
  • 실제 데이터 예시

MS-COCO Dataset 구성

  • COCO 2017 Dataset 기준
  • 이미지 파일
    • 학습용 / 검증용 / 테스트용 파일
  • JSON Annotation 파일
    • JSON 파일 하나
    • images / annotations는 이미지 파일과 1:1 매핑

MS-COCO JSON 파일 예시

  • JSON 파일의 images 대분류 예시
  • JSON 파일의 annotations 대분류 예시
    • bbox: 소수점 제거

MS-COCO Dataset 특징

  • 이미지 한 개에 여러 오브젝트를 가짐
  • 타 데이터 세트에 비해 난이도가 높은 데이터 제공
  • mAP에서 보다 엄격한 기준을 가짐
  • 이미지당 세 개
  • 동일 카테고리의 오브젝트 개수
* 출처: 인프런 '딥러닝 컴퓨터 비전 완벽 가이드'
profile
There's Only One Thing To Do: Learn All We Can

1개의 댓글

comment-user-thumbnail
2021년 11월 15일

안녕하세요, 포스팅에 사용하신 이미지와 일부 정리 내용들을 혹시 스터디 활동에서 정리겸 작성하는 위키독스 문서에 사용 가능할까요?(영리목적이 없고, 출처를 기재해 놓겠습니다!)

답글 달기