[부스트캠프 AI Tech] 13주차 EAST

Mattaaa·2022년 4월 13일
0

오늘 학습 내용


1. An Efficient and Accurate Scene Text Detector (EAST)




1.An Efficient and Accurate Scene Text Detector (EAST)


  • EAST 는 기존 Text Detection 과는 달리 2단계의 단순한 프로세스로 당시 SOTA를 달성.

IDEA

  • 화소 단위정보를 출력하는 FCN (1 Step) 과 이를 후처리 (2 Step) 하여 Predict 함.

  • 2가지의 정보를 Pixel-wise (화소마다) 로 출력
    1. Pixel 이 글자 영역 중심에 해당하는가?    →   Score Map
    2. Pixel 이 글자 영역에 해당된다면 BBOX 의 위치는 어디인가?    →   Geometry Map

Architecture

  • U-net 구조의 Fully Convolutional Network
  1. Feature Extractor Stem (BackBone)
  1. Feature Merging Branch
  1. Output (Score Map, RBOX, QUAD)

Output

Score Map

  • 해당 Pixel 이 글자 영역 중심에 해당하는가?

  • Binary Map - 글자 영역이면 1, 배경이면 0

  • GT BBOX 를 30% 정도 축소


Geomtry Map

  • 해당 Pixel 이 글자 영역이라면 BBOX 는 어디인가?
  • RBOX 형식 (BBOX 각 변까지의 거리 4 Channel + Angle 1 Channel)
  • Quad 형식 (Pixel 로 부터 BBOX 까지의 △x, △y)

Inference (RBOX)

  1. Score Map 을 정의한다.


  1. RBOX 정보로 좌표를 복원시킨다.

  1. NMS 를 이용하여 RBOX 들을 합친다.

Training

Loss Terms

  • Total Loss = Score Map Loss + Geomety Map Loss

  • Score Map Loss 는 Paper 에서는 Class-Balanced Cross Entropy 를 사용하였지만,
    Baseline 에서는 Dice-Coefficient 사용.

  • Geomery Map Loss 의 경우, RBOX는 IoU Loss 를 각도는 Cosine Loss를 사용

Result

  • Real-Time 수준 까지는 아니여도 빠른 속도를 보인다.

  • Locality Aware NMS 의 속도 개선은 효과적이다.
    (T1 에 비해 T2는 거의 무시할만한 수준)

0개의 댓글