4. 데이터 소개

유승우·2022년 5월 13일

10 week 데이터 제작 부스트캠프 AI Tech 3기

0

Data Collection

데이터를 모으는 방법은 크게 두 가지로 나눌 수 있다.

Public Dataset
- 이미 공개된 데이터셋 중에서 목적에 맞는 데이터셋이 있다면 활용하는 것
- 손쉽게 라벨링된 실제 이미지를 확보 가능하기 때문에 데이터 수집 시 제일 먼저 하는 활동
- 하지만 원하는 데이터가 없을 수 있으며 보통 수량이 작다.
- 공개 데이터 탐색 방법
  - 대회
    - kaggle, RRC 와 같은 대회에서 공개되는 데이터 사용
  - 논문
    - Arixv , cvpr, iccv, aaai, icdar (OCR 전문 학회)에서 OCR 데이터셋과 관련된 논문 확인
  - 전문사이트
    - Google Datasearch, Zenodo.org, Datatang(유료 구매) 와 같은 사이트 활용하기
- 이후, 공개된 데이터를 사용하기에 앞서 주요 깊게 확인해야 할 부분이 있다.
  - 어떤 언어를 사용했는지?
  - 어떤 용도로 사용되는지?
  - 데이터 수량
  - 라이센스 종류
  - 데이터 저장 포맷
  - 특이사항

Created Dataset
- 가상 데이터 제작(Synthetic Image)
  - 라벨링 작업이 필요 없으며, 장비만 받쳐준다면 수많은 데이터를 빠르게 확보할 수 있다.
  - 하지만, 합성 데이터가 얼마나 실제데이터와 유사한지를 확인할 필요가 있다.
- Real Image(실제 이미지 사용)
  - Real Image
    - Crawled Image
    - 웹에서 원하는 이미지를 수집하여 직접 라벨링을 수행한다.
    - 빠르게 이미지를 모을 수 있지만 고화질 이미지가 많지 않으며, 다양한 샘플을 모으기 힘들다.
    - 또한, 데이터 라이센스에 신경을 써야 한다.
    - Crowd-sourced Image
      - 직접 이미지를 모으는 방법으로 비용이 크고 오래 걸리지만 원하는 고품질 데이터를 모을 수 있다.

실제로 우리가 서비스향 AI 모델 개발하려 할 때, 한시라도 빨리 답을 가지고 있어야 하는 질문들이 있다.
- 몇 장을 학습시키면 어느 정도 성능이 나오는가?
- 어떤 경우가 일반적이고 어떤 경우가 희귀 케이스인가?
- 현재 최신 모델의 한계는 무엇인가?
이 모든 질문의 답은 공개되어 있는 데이터셋으로 공개되어 있는 최신 모델을 학습시켜 성능을 분석하는 것이다.
OCR 데이터에 포함되어 있는 것들

용어	설명	비고
Bounding Box	검출할 영역의 좌표	검출할 영역의 모양에 따라 다양한 형식이 존재
text	영역 내의 존재하는 글자들의 시퀀스
don’t care	검출해도 되고 안 해도 되는 영역	학습 시에는 사용하지 않음.
File name	이미지 파일의 이름
Image width	이미지 가로 길이
Image height	이미지 세로 길이

이전 포스트

Text Detection

0개의 댓글