[week15] 2021/10/25-29
OCR대회를 위한 데이터 준비
인공지능 모델에서 데이터의 질은 성능을 좌우하는 큰 비중을 차지한다. 따라서 이미지 데이터를 가공할때 반드시 정해진 가이드가 필요하다.
이번 대회에서는 시작전 데이터의 일부를 Upstage annotation tool을 이용하여 직접 annotation을 해보는 시간을 갖었다.
OCR데이터 Annotation 가이드
- 용어

- Annotation rule
- 반드시 potint는 시계방향으로 사각형, 2N개(평행히 짝을 이루도록)!
- 띄어쓰기가 클 경우는 따로 points
- 텍스트의 쓰기 방향에 따라 다른 annotation
- 언어에 따라 다른 annotation
- 이미지안의 글자영역에 대한 특수사항(document,handwriting)들을 annotation