데이터 셋 누가 깔끔하게 정리된게 없어서 그냥 내가 정리했다.
간단하게 정리로 기록해놔도 좋을 거 같아서다.
1. MS COCO
-
마이크로소프트에서 만들어진 거대한 규모의 일상적인 객체들이 담긴 이미지 데이터 세트이며 객체인식, 세그멘테이션, 이미지 캡셔닝에 사용됨
-
ImageNet 데이터 셋의 문제를 해결하기 위해 2014년에 제안됨
ImageNet 데이터의 문제점: 이미지 내 객체가 크고 중앙에 위치, 이미지 당 적은 객체 수,
즉, 이미지넷으로 모델 검증시 현실세계의 객체를 잘 포착하지 못함
-
하지만, 코코 데이터 셋은 다양한 크기의 객체가 있고 작은 사이즈의 객체가 높은 비율로 존재함
-
이미지가 특정 카테고리 즉, 클래스에 명확하게 속해있지않아 덜 아이코닉 함
아이코닉: 이미지 안에 객체가 클래스에 명확하게 분류되어 보이는 것
(a) 객체가 명확하게 하나의 클래스로 구분가능
(b) 사진 속 배경 등 특정 카테고리에 속함을 알 수 있음
덜 아이코닉: 이미지 속 다양한 객체들이 겹치기도 하고 복잡하게 구성되어있는 것
(c) 분명하게 특정 카테고리에 속한다고 말하기 어려움
2. Pascal VOC
- 객체 탐지를 위한 표준 이미지 데이터 셋을 제공하며 Pascal VOC 챌린지 대회에서 개발되었음
- 대회는 2005년부터 2012년까지 진행되었고 총 20가지 객체에 대해 우승자를 가리는 대회였으며 현재는 대회는 열리지 않고 많은 논문에서 사용 중인 데이터
- 주로 이미지 디텍션을 위한 데이터 셋이며 벤치마크(모델을 평가하기 위한)용으로 사용
- ImageNet보다 물체를 인식하기가 상대적으로 어려움
- MS COCO와 차이점으로 XML을 사용, 각 이미지 별로 라벨 정보 파일이 존재, 경계 박스가 최상단 좌표, 최하단 좌표로 구성
3. Imagenet
- 이미지넷은 Fei-Fei Li 교수가 2007년 제안한 학습용 이미지 데이터 베이스 구축 아이디어에서 시작된 프로젝트임
- 이미지 넷 프로젝트는 2010~2017년까지 ILSVRC를 개최해왔고 해당 데이터는 ILSVRC에서 알렉스넷에 의해 오차율이 26%에서 15%정도로 줄어들면서 딥러닝의 관심이 커지게 됨
- 1,000개의 클래스를 가지고 wordnet 계층 구조를 따르는 120만장의 지도학습 데이터 세트
- 이미지별 해상도가 다르기 때문에 모델에 넣을 경우 사이즈 맞추는 전처리 진행 필요
- 이미지넷 주석은 이미지에 객체가 있다 없다와 같은 존재 여부만 말해줌
- 이미지넷 프로젝트 내 이미지들은 저작권을 소유하지 않으므로 이미지 썸네일과 URL만 제공
mscoco, pascal voc 주석형식 다른거랑, bbox다른 방식으로 그려지는 차이를 아는게 중요함