4. 데이터 소개

유승우·2022년 5월 13일
0

Data Collection


  • 데이터를 모으는 방법은 크게 두 가지로 나눌 수 있다.
  1. Public Dataset

    • 이미 공개된 데이터셋 중에서 목적에 맞는 데이터셋이 있다면 활용하는 것

    • 손쉽게 라벨링된 실제 이미지를 확보 가능하기 때문에 데이터 수집 시 제일 먼저 하는 활동

    • 하지만 원하는 데이터가 없을 수 있으며 보통 수량이 작다.

    • 공개 데이터 탐색 방법

      • 대회
        • kaggle, RRC 와 같은 대회에서 공개되는 데이터 사용
      • 논문
        • Arixv , cvpr, iccv, aaai, icdar (OCR 전문 학회)에서 OCR 데이터셋과 관련된 논문 확인
      • 전문사이트
        • Google Datasearch, Zenodo.org, Datatang(유료 구매) 와 같은 사이트 활용하기
    • 이후, 공개된 데이터를 사용하기에 앞서 주요 깊게 확인해야 할 부분이 있다.

      • 어떤 언어를 사용했는지?
      • 어떤 용도로 사용되는지?
      • 데이터 수량
      • 라이센스 종류
      • 데이터 저장 포맷
      • 특이사항
  1. Created Dataset

    • 가상 데이터 제작(Synthetic Image)

      • 라벨링 작업이 필요 없으며, 장비만 받쳐준다면 수많은 데이터를 빠르게 확보할 수 있다.
      • 하지만, 합성 데이터가 얼마나 실제데이터와 유사한지를 확인할 필요가 있다.
    • Real Image(실제 이미지 사용)

      • Real Image
        • Crawled Image
        • 웹에서 원하는 이미지를 수집하여 직접 라벨링을 수행한다.
        • 빠르게 이미지를 모을 수 있지만 고화질 이미지가 많지 않으며, 다양한 샘플을 모으기 힘들다.
        • 또한, 데이터 라이센스에 신경을 써야 한다.
        • Crowd-sourced Image
          • 직접 이미지를 모으는 방법으로 비용이 크고 오래 걸리지만 원하는 고품질 데이터를 모을 수 있다.
  • 실제로 우리가 서비스향 AI 모델 개발하려 할 때, 한시라도 빨리 답을 가지고 있어야 하는 질문들이 있다.

    • 몇 장을 학습시키면 어느 정도 성능이 나오는가?
    • 어떤 경우가 일반적이고 어떤 경우가 희귀 케이스인가?
    • 현재 최신 모델의 한계는 무엇인가?
  • 이 모든 질문의 답은 공개되어 있는 데이터셋으로 공개되어 있는 최신 모델을 학습시켜 성능을 분석하는 것이다.

  • OCR 데이터에 포함되어 있는 것들

용어설명비고
Bounding Box검출할 영역의 좌표검출할 영역의 모양에 따라 다양한 형식이 존재
text영역 내의 존재하는 글자들의 시퀀스
don’t care검출해도 되고 안 해도 되는 영역학습 시에는 사용하지 않음.
File name이미지 파일의 이름
Image width이미지 가로 길이
Image height이미지 세로 길이

0개의 댓글