OCR을 아주 대략적으로 큰 범주로 나눈 단계로 본다면, Text Detection과 Text Recognition 두 단계가 존재한다.
Text Detection
Text Recognition
Text Recognition에는 대표적으로 2가지 방법이 있다.
CTC-based decoding 방식은 Convolutional layer를 통해 feature를 추출하고, CNN 레이어 상단에 RNN 레이어를 쌓은 방식이다.
이러한 방식은 input image들을 vertical pixel frame들의 sequence로 보는 방식이다. 또한 이러한 방식은 speech recognition에서 활용되던 방식이다.
Encoder-Decoder 방식은 언어 모델을 조금 더 활용하는 방식으로 진행된다.
구조는 Transformer의 형태로, input sequence와 ouput sequence 간에 attention 메커니즘을 활용하여 attention 스코어를 구하는 방식으로 결합된다.
CTC-based decoding 방식과 Encoder-Decoder 방식은 character 레벨이 아닌 word레벨로 진행된다.