Dataset

J. Hwang·2024년 10월 29일

Data-centric AI에서도 알 수 있듯, 양질의 데이터를 확보하는 것은 매우 중요하다.

그 전에, 서비스향 AI 모델을 개발할 때 점검해야 할 사항들을 알아보자.

몇 장을 학습시킬 때 어느 정도의 성능이 나오는지?
어떤 경우가 일반적이고 어떤 경우가 outlier인지?
현재 최신 모델의 한계가 무엇인지?

이러한 질문들에 대한 답을 얻기 위해서는, 공개된 데이터셋으로 공개된 최신 모델을 학습시켜 알아보면 좋다.

Dataset 확보 방법

Kaggle
RRC (Robust Reading Challenges) : 2년마다 열리는 OCR 전문 대회
논문 : Arxiv, CVPR, ICCV, AAAI, ICDAR (OCR 전문 학회)
Google Datasearch
Zenodo.org
Datatang : 데이터 유료 구매 사이트

파악해야 할 Dataset의 특성

특히 여기에서는 OCR 데이터 확보의 경우에 대해서 얘기해보겠다.

언어
용도 : detection? recognition? end-to-end?
데이터 수량
라이센스 종류
데이터 저장 포맷
특이사항

Let it code

이전 포스트

[백준] 11561 징검다리

다음 포스트

[프로그래머스] 입국심사

0개의 댓글