데이터 제작 대회 Wrap-up

허진녕·2023년 1월 25일
0

AI_TECH

목록 보기
4/4

대회 개요

주제

  • 데이터 제작 및 수정을 통한 이미지 속 글자 검청 성능 개선 대회

개요

  • 데이터가 학습에 미치는 영향을 확인하기 위해 데이터 제작 및 수정이 가능하다.
  • 데이터의 영향력을 확인하기 위해 모델, Optimizer 변경은 불가하고 Augmentation만 가능하다.

데이터

  • ICDAR_Korean 데이터셋 536장 + Upstage Annotation Tool로 제작한 974장
  • 총 Annotation 21,183개
  • 아래 그래프는 이미지 당 Annotation의 수, Annotation 넓이 분포, Annotation 형태의 분포

문제 정의

1. Annotation의 불규칙성

  • Upstage Annotation Tool로 제작한 데이터는 다수의 사람이 참여하였고, 최종 검수 작업이 없었다. 그 결과 Annotation에 일관성이 없었다.

2. 데이터의 불균형

  • 세로로 쓰인 글자와 곡선 형태의 글자가 가로로 쓰인 글자보다 현저하게 적었다.

3. 곡선 형태 Annotation 처리

  • 제공된 Baseline 코드에서는 사각형의 형태의 Bounding Box만 학습이 가능하여, 곡선 형태의 글자에 대한 전처리가 필요했다.

데이터 제작 및 검수 & Augmentation

데이터 제작 및 검수

  • Upstage Annotation Tool을 이용하여 다수가 데이터 제작에 참여하였지만, 최종 검수하는 작업이 없었다. 그래서 팀 내에서 시각화 작업을 통해 통일된 규칙으로 데이터를 검수하였다.
  • 다각형 형태의 Annotation의 경우, 사각형 형태로 변환을 해야 학습이 가능했다. 그래서 다각형의 최대 X, Y 좌표와 최소 X, Y 좌표를 이용하여 다각향 전체를 포함할 수 있는 사각형으로 변환하였다.

Augmentation

  • 글자 이미지의 경우 상하 좌우가 명확하게 구분되기 때문에 Flip을 이용한 Augmentation은 진행하지 않았다.
  • 글자 이미지의 특성상 글자와 배경의 경계가 명확해야 글자를 인식하기 수월하다고 판단하였고, CLAHE를 적용하여 경계선이 명확해지는 효과를 주었다.

개인 회고

  • 데이터를 추가하고 수정하는 것만으로 유의미한 성능 향상으로 이어졌고, 이런 경험을 통해 데이터의 중요함을 다시 느낄 수 있었다.
  • 또한 이미지의 특성에 맞는 Augmentation만으로 성능을 높일 수 있음을 확인하였다.
  • 다만 외부 데이터를 추가하여 어느 정도 Noise가 존재하는 데이터의 증가가 성능 향상으로 이어지는 확인하는 실험을 진행하지 못한 점이 아쉬웠다.
  • 일주일이라는 대회 기간 동안 데이터에만 집중하여 다양한 시사점을 얻을 수 있었고 이를 추후 진행할 대회와 프로젝트에 적극적으로 적용할 계획이다.
profile
Hello!

0개의 댓글