Dataset 정리(MScoco, Pascal voc, Imagenet)

lena_log·2022년 10월 15일

데이터 셋 누가 깔끔하게 정리된게 없어서 그냥 내가 정리했다.
간단하게 정리로 기록해놔도 좋을 거 같아서다.

1. MS COCO

마이크로소프트에서 만들어진 거대한 규모의 일상적인 객체들이 담긴 이미지 데이터 세트이며 객체인식, 세그멘테이션, 이미지 캡셔닝에 사용됨
ImageNet 데이터 셋의 문제를 해결하기 위해 2014년에 제안됨
ImageNet 데이터의 문제점: 이미지 내 객체가 크고 중앙에 위치, 이미지 당 적은 객체 수,
즉, 이미지넷으로 모델 검증시 현실세계의 객체를 잘 포착하지 못함
하지만, 코코 데이터 셋은 다양한 크기의 객체가 있고 작은 사이즈의 객체가 높은 비율로 존재함
이미지가 특정 카테고리 즉, 클래스에 명확하게 속해있지않아 덜 아이코닉 함
아이코닉: 이미지 안에 객체가 클래스에 명확하게 분류되어 보이는 것
(a) 객체가 명확하게 하나의 클래스로 구분가능
(b) 사진 속 배경 등 특정 카테고리에 속함을 알 수 있음
덜 아이코닉: 이미지 속 다양한 객체들이 겹치기도 하고 복잡하게 구성되어있는 것
(c) 분명하게 특정 카테고리에 속한다고 말하기 어려움

객체 탐지를 위한 표준 이미지 데이터 셋을 제공하며 Pascal VOC 챌린지 대회에서 개발되었음
대회는 2005년부터 2012년까지 진행되었고 총 20가지 객체에 대해 우승자를 가리는 대회였으며 현재는 대회는 열리지 않고 많은 논문에서 사용 중인 데이터
주로 이미지 디텍션을 위한 데이터 셋이며 벤치마크(모델을 평가하기 위한)용으로 사용
ImageNet보다 물체를 인식하기가 상대적으로 어려움
MS COCO와 차이점으로 XML을 사용, 각 이미지 별로 라벨 정보 파일이 존재, 경계 박스가 최상단 좌표, 최하단 좌표로 구성

이미지넷은 Fei-Fei Li 교수가 2007년 제안한 학습용 이미지 데이터 베이스 구축 아이디어에서 시작된 프로젝트임
이미지 넷 프로젝트는 2010~2017년까지 ILSVRC를 개최해왔고 해당 데이터는 ILSVRC에서 알렉스넷에 의해 오차율이 26%에서 15%정도로 줄어들면서 딥러닝의 관심이 커지게 됨
1,000개의 클래스를 가지고 wordnet 계층 구조를 따르는 120만장의 지도학습 데이터 세트
이미지별 해상도가 다르기 때문에 모델에 넣을 경우 사이즈 맞추는 전처리 진행 필요
이미지넷 주석은 이미지에 객체가 있다 없다와 같은 존재 여부만 말해줌
이미지넷 프로젝트 내 이미지들은 저작권을 소유하지 않으므로 이미지 썸네일과 URL만 제공

안녕하세요. 기억보다 기록을 믿는 레나입니다!