- 화소 단위정보를 출력하는 FCN (1 Step) 과 이를 후처리 (2 Step) 하여 Predict 함.
- 2가지의 정보를 Pixel-wise (화소마다) 로 출력
- Pixel 이 글자 영역 중심에 해당하는가? → Score Map
- Pixel 이 글자 영역에 해당된다면 BBOX 의 위치는 어디인가? → Geometry Map
- U-net 구조의 Fully Convolutional Network
- Feature Extractor Stem (BackBone)
- Feature Merging Branch
- Output (Score Map, RBOX, QUAD)
Score Map
해당 Pixel 이 글자 영역 중심에 해당하는가?
Binary Map - 글자 영역이면 1, 배경이면 0
GT BBOX 를 30% 정도 축소
Geomtry Map
- 해당 Pixel 이 글자 영역이라면 BBOX 는 어디인가?
- RBOX 형식 (BBOX 각 변까지의 거리 4 Channel + Angle 1 Channel)
- Quad 형식 (Pixel 로 부터 BBOX 까지의 △x, △y)
- Score Map 을 정의한다.
- RBOX 정보로 좌표를 복원시킨다.
- NMS 를 이용하여 RBOX 들을 합친다.
Loss Terms
- Total Loss = Score Map Loss + Geomety Map Loss
- Score Map Loss 는 Paper 에서는 Class-Balanced Cross Entropy 를 사용하였지만,
Baseline 에서는 Dice-Coefficient 사용.
- Geomery Map Loss 의 경우, RBOX는 IoU Loss 를 각도는 Cosine Loss를 사용
Real-Time 수준 까지는 아니여도 빠른 속도를 보인다.
Locality Aware NMS 의 속도 개선은 효과적이다.
(T1 에 비해 T2는 거의 무시할만한 수준)