광학문자인식으로 알려진 ocr은 텍스트를 기계가 인식할 수 있는 텍스트 형식으로 변환하는 Task이다.
ocr은 크게 글자 영역을 찾는 모듈(Text Detection)과 그 영역에 어떤 글자가 있는지 인식(Text Recognition)하는 모듈과 마지막에 Serializer라고 하는 인식한 text를 순서대로 변환해주는 모듈로 이루어진다.
위에서 설명한 ocr pipeline을 보면 글자를 찾는 영역과 글자를 인식하는 영역 2가지로 구성 되는 것을 볼 수가 있다. 이 것은 마치 object detection과 pipeline이 유사한 데 이 둘의 차이점을 알아보자.
Object detection
각 객체들의 위치와 객체의 클래스를 예측
Text Detection
클래스 정보가 필요없고 글자 영역에 해당하는 객체의 위치만 추정
object detection과 대비 되는 text detection의 target의 특징은 아래와 같다.