[OCR] 스타넷 abstract

미남홀란드·2023년 1월 30일

논문

목록 보기
1/1

Abstract

  1. In this paper, we present a novel SpaTial Attention Residue Network (STAR-Net) for recognising scene texts.
  2. Our STAR-Net is equipped with a spatial attention mech- anism which employs a spatial transformer to remove the distortions of texts in natural images.
  3. This allows the subsequent feature extractor to focus on the rectified text re- gion without being sidetracked by the distortions.
  4. Our STAR-Net also exploits residue convolutional blocks to build a very deep feature extractor, which is essential to the suc- cessful extraction of discriminative text features for this fine grained recognition task.
  5. Combining the spatial attention mechanism with the residue convolutional blocks, our STAR-Net is the deepest end-to-end trainable neural network for scene text recognition.
  6. Experiments have been conducted on five public benchmark datasets.
  7. Experimental re- sults show that our STAR-Net can achieve a performance comparable to state-of-the-art methods for scene texts with little distortions, and outperform these methods for scene texts with considerable distortions.

1.본 논문에서는 Scene Text를 인식하기 위한 새로운 SpaTial attention 잔여 네트워크(STAR-Net)를 제시한다.
2. 우리의 STAR-Net은 자연 이미지에서 텍스트의 왜곡을 제거하기 위해 spatil transformer를 사용하는 spaatial attention 메커니즘을 갖추고 있다.
3. 이를 통해 후속 feature extractor는 왜곡으로 인해 옆길로 빠지지 않고 수정된 텍스트 영역에 초점을 맞출 수 있다.
4. 우리의 STAR-Net은 또한 잔류 컨볼루션 블록을 활용하여 매우 심층적인 feautre extractor 를 구축하는데, 이는 이 미세한 인식 작업을 위한 차별적인 텍스트 특징의 성공적인 추출에 필수적이다.
5. Spatial attention 과 잔여 residue convolutional blocks 결합한 우리의 STAR-Net은 장면 텍스트 인식을 위한 가장 깊은 end-to-end 훈련 가능한 신경망이다.
6. 5개의 public benchmark datasets 세트에 대한 실험이 수행되었다.
7. 실험 결과는 우리의 STAR-Net이 왜곡이 거의 없는 Scene Text 대한 SOTA 성능을 달성할 수 있으며, 상당한 왜곡이 있는 Scene Text에 대해 이러한 메소드에 능가할 수 있음을 보여준다.

Scene Text Recognition 이란?
1) 전통적인 OCR 과의 차이
전통적인 OCR은 일반적으로 문서의 글자를 인식하는 Task를 의미한다.
이 경우 대부분 아래와 같이 제한된 환경인 경우가 많다.
한 가지 색의 배경과 글자(ex. 흰 종이, 검은 글자)
정면 각도
한 가지 글씨채
반면 길가의 간판 등 일상 속 텍스트를 인식하고 싶을 경우 훨씬 다양한 경우의 수와 복잡한 배경이 주어진다.
기우러지거나 굴곡된 이미지가 많은 STD의 특성 상, 직사각형 형태의 bbox로 충분하지 않은 경우가 많다.
어떤 형태를 선택할 지도 성능에 많은 영향을 줄 것으로 보인다.
이런 테스크를 따로 자정하여 "Scene Text"라고 부른다.

profile
AI engineer

0개의 댓글