OCR 기술은 이미지 내 픽셀형태의 문자를 인식해내는 기술
-> 알파벳 총 26개 클래스 분류를 위한 모델 설계(영어)에 집중되어 연구가 진행되어왔음 -> 한글 문자인식은 상대적으로 적은 연구 진행
한글의 경우 초성-중성-종성의 조합으로 각 글자가 정의되어 해당 조합의 경우의 수가 약 1만개의 클래스를 분류해야하는 문제가 발생
따라서 선행연구들은 빈번히 사용되는 글자 천 여개만을 대상으로 학습하거나 자주 사용되지 않는 글자를 포함한 모든 글자에 대한 가상 이미지를 생성하여 학습에 활용하였음. 하지만 각 도메인마다 확률분포가 다른 문제 발생(클래스 불균형 문제)
이 논문에서는 한글의 문자인식을 자모 단위로 분할하는 것을 제안(1만개 클래스 분류문제에서 52개 클래스 분류 문제오 치환)
이는 입력 이미지의 특징추출을 위한 CNN, 문자들의 순서를 모델링하기 위한 RNN, 각 클래스 분류를 위한 FC(Fully- connected Layer)로 구성되어왔음
하지만 최근에는 자연어처리 분야에서 널리 사용되던 Transformer 모델을 문자 인식에 도입
트랜스포머는 자연어처리에서 연구된 모델로 병렬처리의 어려움과 입력문장 길이에 의존적인 한계점이 있었던 시퀀스투시퀀스 모델을 어텐션 메카니즘으로 해결
어텐션은 입력 문장을 번역하기 위해 가중치를 어떤 단어에 더 두어야 하는지 학습하는 것으로 각 단어끼리의 연관성을 추정하고 이를 토대로 특징 벡터를 새로 표현하게 됨
먼저 ResNet과 트랜스포머 인코더로 입력 이미지에 대한 특징맵을 표현
이후 위치 어텐션을 통해 추출된 특징맵으로부터 각 클래스 분류 확률을 병렬적으로 추론하며 자모 단위로 분할된 라벨과 Cross Entropy Loss를 통해 손실함수 정의