OCR project

이상민·2023년 5월 23일

Optical Character Recognition

광학문자인식으로 알려진 ocr은 텍스트를 기계가 인식할 수 있는 텍스트 형식으로 변환하는 Task이다.

ocr은 크게 글자 영역을 찾는 모듈(Text Detection)과 그 영역에 어떤 글자가 있는지 인식(Text Recognition)하는 모듈과 마지막에 Serializer라고 하는 인식한 text를 순서대로 변환해주는 모듈로 이루어진다.

위에서 설명한 ocr pipeline을 보면 글자를 찾는 영역과 글자를 인식하는 영역 2가지로 구성 되는 것을 볼 수가 있다. 이 것은 마치 object detection과 pipeline이 유사한 데 이 둘의 차이점을 알아보자.

object detection과 대비 되는 text detection의 target의 특징은 아래와 같다.

영역 종횡비: Text의 특성상 세로 대비 가로가 매우 길다
객체 밀도: 책이나 안내문과 같이 text는 여러 객체가 모여있는 경우가 많기때문에 밀도가 높다.
target: object detection의 경우 클래스와 위치를 예측하지만, text detection은 text라는 단일 클래스를 target으로 하기 때문에 위치만 예측하는 문제로 볼 수 있다.
특이 모양: 글자의 특성상 종이 천과 같은 잘 휘어지는 물체 위에 적을 수도 있기 때문에 특이 모양 text box가 존재할 수 있다.

잘하자