Public Dataset
이미 공개된 데이터셋 중에서 목적에 맞는 데이터셋이 있다면 활용하는 것
손쉽게 라벨링된 실제 이미지를 확보 가능하기 때문에 데이터 수집 시 제일 먼저 하는 활동
하지만 원하는 데이터가 없을 수 있으며 보통 수량이 작다.
공개 데이터 탐색 방법
이후, 공개된 데이터를 사용하기에 앞서 주요 깊게 확인해야 할 부분이 있다.
Created Dataset
가상 데이터 제작(Synthetic Image)
Real Image(실제 이미지 사용)
실제로 우리가 서비스향 AI 모델 개발하려 할 때, 한시라도 빨리 답을 가지고 있어야 하는 질문들이 있다.
이 모든 질문의 답은 공개되어 있는 데이터셋으로 공개되어 있는 최신 모델을 학습시켜 성능을 분석하는 것이다.
OCR 데이터에 포함되어 있는 것들
용어 | 설명 | 비고 |
---|---|---|
Bounding Box | 검출할 영역의 좌표 | 검출할 영역의 모양에 따라 다양한 형식이 존재 |
text | 영역 내의 존재하는 글자들의 시퀀스 | |
don’t care | 검출해도 되고 안 해도 되는 영역 | 학습 시에는 사용하지 않음. |
File name | 이미지 파일의 이름 | |
Image width | 이미지 가로 길이 | |
Image height | 이미지 세로 길이 |