개념 : 컴퓨터가 글자의 위치와 정보를 인식하는 것
구성
구조
segment-based로 FCN을 통해 각 화소별 단위정보를 추출해서 그것을 후처리하는 방식으로 학습한다.
Fully Convolutional Network (FCN)
본 논문에서는 U-net 구조의 segmentation base를 사용한다.
pixel-wise prediction 이 가능하다.
FCN의 output 은 픽셀별로 다음과 같은 것들을 output으로
(1) score map : 글자 영역 중심에 해당하는지
(2) geometry map : (글자영역의 화소에 대하여) bbox의 위치는 어디인지
이 두 가지를 내보내도록 학습한다.
→ 굳이 글자 전체 영역인지 아닌지 학습하지 않고 위와 같이 나누어서 학습하는 이유는
글자 중심영역을 먼저 파악함으로써, 겹치는 글자간 간섭이 일어나지 않도록 하기 위해서다.
( = score map 을 가지는 글자 중심영역은, 다른 글자의 중심영역과 겹치기 힘들다.)
Output
1) Score Map : 글자 영역의 중심에 해당하는지
2) Geormetry map : 특정 화소가 글자영역이라면, 해당 bbounding box의 위치는 어디까지인지
Inference
1) Score Map 이진화
2) 사각형 좌표값 복원
3) Angle 역변환을 통해 기존의 box 복원
4) 화소별로 복원된 box들을 Locality-Aware NMS를 통해 하나의 박스로 출력
Training
Loss
전체 Loss 는 Loss for score map + Loss for geometry map 으로 이루어져있다.
Loss별 자세한 설명은 생략한다.