데이터 세트 소개
1. MNIST Dataset
- 손으로 쓴 숫자들로 이루어진 대형 데이터베이스이며, 다양한 화상 처리 시스템을 트레이닝하기 위해 일반적으로 사용된다.
- 비교적 작고 간단한 데이터 세트에 대한 새로운 아이디어를 시도하는것이 매우 빠르다.
MNIST 데이터 : http://yann.lecun.com/exdb/mnist/
훈련 이미지 : 60,000
테스트 이미지 : 10,000
픽셀 boundary : 28x28
- EMNIST Dataset
2017년에 MNIST 데이터 세트에서 확장으로 나왔고 240,000개의 훈련 이미지와 40,000 개의 필기 숫자 및 문자 테스트 이미지가 포함되어 있다.
2. CIFAR100 Dataset
- 100개의 카테고리로 이루어진 데이터 세트
- MNIST와 다르게 그레이 스케일 이미지가 아닌 컬러 이미지이다.
훈련 이미지 : 50,000(500 per class)
테스트 이미지 : 10,000(100 per class)
픽셀 boundary : 32x32
3. ImageNet
- ImageNet은 시각적 객체 인식 소프트웨어 연구를 하기 위한 목적을 가진 프로젝트이고 다양한 이미지와 해당 이미지에 대한 범주가 포함되어 있다.
- 1000개의 카테고리로 이루어진 데이터 세트
훈련 이미지 : 140만 (~1.4k per class)
검증 이미지 : 5만 (50 per class)
태스트 이미지 : 10만 (100 per class)
Performance metric : Top 5 accuracy Algorithm predicts 5 labels for each image; one of them needs to be right
=> 알고리즘이 주어진 트레이닝 이미지에 대해 5개의 라벨(카테고리)를 예측할때, 5개 중의 하나가 옳아야한다.
imageNet은 다른 데이터 셋들 보다 학습 시키는 이미지의 pixels가 훨씬 크므로 결과에 대한 신빙성을 높일 수 있다.
그렇지만, 작업하는데 계산 비용이 많이 들기 떄문에 CIFAR100을 사용할 수도 있다.
시간과 하드웨어 용량 간의 경제적 요소를 생각해서 사용하는게 좋다.
4. Omniglot
- 세계의 문자에 대한 개략적인 정보를 제공하는 웹사이트이다.
- 문자를 다룬 사이트로서는 세계 최고의 정보량을 가지고 있다.
각각의 카테코리에 대해 20개의 예를 제공한다.
cs231n을 보고 개인적으로 정리한 글입니다.
내용의 오류가 있을시 알려주시면 다시 해당 부분을 고치고 다시 정리하겠습니다.