info
: 데이터셋에 대한 일반 정보를 담고 있는 객체
description
: 데이터셋에 대한 설명. 여기서는 "COCO 2017 Dataset"이라고 설명되어 있습니다.url
: 데이터셋의 공식 웹사이트 URL. 여기서는 "http://cocodataset.org"
입니다.version
: 데이터셋의 버전. 여기서는 "1.0"입니다.year
: 데이터셋이 생성된 연도. 여기서는 2017년입니다.contributor
: 데이터셋에 기여한 그룹이나 개인. 여기서는 "COCO Consortium"입니다.date_created
: 데이터셋이 생성된 날짜. 여기서는 "2017/09/01"입니다.licenses
: 데이터셋의 라이센스 정보를 담고 있는 배열. 여러 개의 라이센스가 있을 수 있지만, 여기서는 하나의 라이센스만 포함되어 있습니다.
url
: 라이센스의 공식 URL. 여기서는 "http://creativecommons.org/licenses/by-nc-sa/2.0/"
입니다.id
: 라이센스의 고유 식별자. 여기서는 1번입니다.name
: 라이센스의 이름. 여기서는 "Attribution-NonCommercial-ShareAlike License"
입니다. "images": [
{
"license": 4,
"file_name": "000000397133.jpg",
"coco_url": "http://images.cocodataset.org/val2017/000000397133.jpg",
"height": 427,
"width": 640,
"date_captured": "2013-11-14 17:02:52",
"flickr_url": "http://farm7.staticflickr.com/6116/6255196340_da26cf2c9e_z.jpg",
"id": 397133
},
license
: 이미지의 라이센스를 나타내는 숫자 코드입니다. COCO 데이터셋에는 여러 라이센스가 있으며, 각 라이센스는 숫자로 식별됩니다. 여기서는 4번 라이센스입니다.file_name
: 데이터셋 내에서 이미지의 파일 이름입니다. 여기서는 000000397133.jpg입니다.coco_url
: COCO 데이터셋 서버에서 해당 이미지를 볼 수 있는 URL입니다. 여기서는 http://images.cocodataset.org/val2017/000000397133.jpg
입니다.width
: 이미지의 너비(픽셀 단위)입니다. 여기서는 640 픽셀입니다.flickr_url
: 이미지가 업로드된 Flickr 페이지의 URL입니다. 여기서는 http://farm7.staticflickr.com/6116/6255196340_da26cf2c9e_z.jpg
입니다."annotations": [
{
"segmentation": [
[
538.06,
310.76,
528.73,
328.38,
527.69,
338.75,
527.69,
349.11,
527.69,
356.37,
505.92,
369.85,
472.74,
371.92,
462.38,
371.92,
424.02,
390.58,
418.83,
392.66,
369.07,
387.47,
356.63,
386.44,
320.35,
391.62,
286.13,
372.96,
280.95,
372.96,
249.85,
370.89,
236.37,
370.89,
220.82,
369.85,
207.34,
376.07,
202.16,
393.69,
194.9,
396.8,
181.43,
401.99,
174.17,
391.62,
176.24,
78.14,
166.91,
365.7,
144.1,
378.14,
118.19,
392.66,
109.89,
401.99,
81.9,
426.87,
78.79,
423.76,
72.57,
413.39,
70.5,
400.95,
72.57,
391.62,
82.94,
380.22,
118.19,
354.3,
145.14,
335.64,
161.73,
320.09,
181.43,
295.21,
196.98,
282.76,
203.2,
276.54,
217.71,
264.1,
257.11,
255.81,
322.42,
248.55,
374.25,
255.81,
414.69,
263.07,
454.08,
258.92,
462.38,
257.88,
464.45,
236.11,
480.0,
252.7,
506.95,
269.29,
526.65,
273.43,
553.61,
269.29,
566.05,
273.43,
557.75,
293.13,
539.09,
307.65
]
],
"area": 48159.0567,
"iscrowd": 0,
"image_id": 260925,
"bbox": [
70.5,
236.11,
495.55,
190.76
],
"category_id": 17,
"id": 52697
},
segmentation
: 객체의 경계(윤곽)를 나타내는 다각형 정보입니다. 리스트 안에 리스트가 있고, 내부 리스트는 다각형의 꼭짓점 좌표를 나열합니다. 각 쌍의 값은 (x, y) 좌표를 의미합니다.[538.06,310.76,528.73,328.38,...]
는 첫 번째 꼭짓점이 (538.06, 310.76), 두 번째 꼭짓점이 (528.73, 328.38)인 다각형을 의미합니다.area
: 객체의 영역(면적)을 나타냅니다. 여기서는 48159.0567
로, 객체의 면적이 약 48159.0567 평방 단위임을 의미합니다.iscrowd
: 객체가 여러 객체로 구성된 군집(crowd)인지 여부를 나타냅니다. 0
은 단일 객체임을 의미합니다. 군집 객체일 경우 1
로 표시됩니다.image_id
: 객체가 속한 이미지의 고유 ID입니다. 여기서는 260925
로, 이미지 ID가 260925임을 의미합니다.bbox
: 객체를 둘러싸는 바운딩 박스(bounding box)를 나타냅니다. [x, y, width, height]
형식으로 주어지며,[70.5, 236.11, 495.55, 190.76]
로,x
는 바운딩 박스의 왼쪽 위 꼭짓점의 x 좌표 (70.5
),y
는 바운딩 박스의 왼쪽 위 꼭짓점의 y 좌표 (236.11
),width
는 바운딩 박스의 너비 (495.55
),height
는 바운딩 박스의 높이 (190.76
)를 의미합니다.category_id
: 객체의 분류 카테고리 ID입니다.id
: 객체 주석의 고유 ID입니다. 여기서는 52697
로, 주석 ID가 52697임을 의미합니다.supercategory
: 유사한 카테고리를 그룹화하는 더 넓은 범주입니다. 예를 들어, "사람(person)"은 슈퍼카테고리입니다.categories": [
{
"supercategory": "person",
"id": 1,
"name": "person"
supercategory
: 해당 카테고리가 속한 상위 카테고리(supercategory)입니다. 여기서는 "person"입니다. 이는 상위 분류로, 여러 하위 카테고리를 하나로 묶는 역할을 합니다.id
: 해당 카테고리의 고유 ID입니다. 여기서는 1
입니다. COCO 데이터셋에서는 각 카테고리가 고유한 숫자로 식별됩니다.하나의 이미지에 여러 객체가 어노테이션된 예시
{
"images": [
{
"id": 123,
"file_name": "000000123456.jpg",
"width": 640,
"height": 480
}
],
"annotations": [
{
"id": 1,
"image_id": 123,
"category_id": 18,
"bbox": [100, 200, 50, 70],
"segmentation": [[...]],
"area": 3500,
"iscrowd": 0
},
{
"id": 2,
"image_id": 123,
"category_id": 1,
"bbox": [150, 250, 60, 80],
"segmentation": [[...]],
"area": 4800,
"iscrowd": 0
}
],
"categories": [
{"id": 1, "name": "person"},
{"id": 18, "name": "dog"}
]
}