Data-centric AI에서도 알 수 있듯, 양질의 데이터를 확보하는 것은 매우 중요하다.
그 전에, 서비스향 AI 모델을 개발할 때 점검해야 할 사항들을 알아보자.
- 몇 장을 학습시킬 때 어느 정도의 성능이 나오는지?
- 어떤 경우가 일반적이고 어떤 경우가 outlier인지?
- 현재 최신 모델의 한계가 무엇인지?
이러한 질문들에 대한 답을 얻기 위해서는, 공개된 데이터셋으로 공개된 최신 모델을 학습시켜 알아보면 좋다.
Dataset 확보 방법
- Kaggle
- RRC (Robust Reading Challenges) : 2년마다 열리는 OCR 전문 대회
- 논문 : Arxiv, CVPR, ICCV, AAAI, ICDAR (OCR 전문 학회)
- Google Datasearch
- Zenodo.org
- Datatang : 데이터 유료 구매 사이트
파악해야 할 Dataset의 특성
특히 여기에서는 OCR 데이터 확보의 경우에 대해서 얘기해보겠다.
- 언어
- 용도 : detection? recognition? end-to-end?
- 데이터 수량
- 라이센스 종류
- 데이터 저장 포맷
- 특이사항