Dataset

J. Hwang·2024년 10월 29일

Data-centric AI에서도 알 수 있듯, 양질의 데이터를 확보하는 것은 매우 중요하다.

그 전에, 서비스향 AI 모델을 개발할 때 점검해야 할 사항들을 알아보자.

  • 몇 장을 학습시킬 때 어느 정도의 성능이 나오는지?
  • 어떤 경우가 일반적이고 어떤 경우가 outlier인지?
  • 현재 최신 모델의 한계가 무엇인지?

이러한 질문들에 대한 답을 얻기 위해서는, 공개된 데이터셋으로 공개된 최신 모델을 학습시켜 알아보면 좋다.

Dataset 확보 방법

  • Kaggle
  • RRC (Robust Reading Challenges) : 2년마다 열리는 OCR 전문 대회
  • 논문 : Arxiv, CVPR, ICCV, AAAI, ICDAR (OCR 전문 학회)
  • Google Datasearch
  • Zenodo.org
  • Datatang : 데이터 유료 구매 사이트

파악해야 할 Dataset의 특성

특히 여기에서는 OCR 데이터 확보의 경우에 대해서 얘기해보겠다.

  • 언어
  • 용도 : detection? recognition? end-to-end?
  • 데이터 수량
  • 라이센스 종류
  • 데이터 저장 포맷
  • 특이사항
profile
Let it code

0개의 댓글