글자 객체의 특징
- 매우 높은 밀도
- 극단적 종횡비
- 특이 모양: 구겨진 영역, 휘어진 영역, 세로 쓰기 영역
- 모호한 객체 영역: annotation방법에 따라
- 크기 편차
글자 영역 표현법
- 직사각형
- 직사각형 + 각도
- 임의의 사각형: 시계 방향
- 다각형: 2N points
Taxonomy(글자영역 검출 기술)
SW 1.0: 사람이 고민하여 설계한 특징 추출 모듈 + ML모듈
- HOG, MSER, SWT features
- sobel같은 edge detection등의 복잡한 연산
SW 2.0: 특징추출 + 판단이 모델구조 데이터 최적화 방식, 자동으로.
- 파이프라인의 단순화
- 사람의 개입을 최소화
- 성능이 더 좋음
Regression- based & Segmentation-based
Regression-based: 이미지를 입력받아 글자영역 표현값들을 바로 출력
- TextBoxes'18: anchor 박스로 글자영역의 상대값 추출(사각형에만 적절,anchor box보다 크면 성능 저하)
Segmentation-based: 이미지를 입력받아 글자 영역 표현값들에 사용되는 화소단위 정보를 뽑고, 후처리를 통해서 최종글자 영역 표현 값들을 확보
- PixelLink'18: 각 화소 별로 글자영역에 속할 확률, 8개 방향으로 인접한 화소도 글자영역에 포함되는 8개채널로 표현. 후처리: 이진화, 연결된 성분 분석(CCA),RBOX정합
- 후처리가 복잘할 수 있어 시간이 오래 걸릴 수 있음
- 서로 간섭이 있거나 인접한 개체 간의 구분이 어려움
Hybrid: R + S
- MaskTextSpotter'18: fast RCNN으로 사각영역을 찾고 화소별 영역 정보 추출
Character-Based Methods: 글자단위로 검출후 조합하여 word instance를 예측, character-level GT 필요(라벨링).
- CRAFT'19: 글자별 위치정보와 연결성을 예측하여 단어로 조합
Word-Based Methods: 단어단위로
EAST: Efficient and Accurate Scene Text Detector
idea
- 네트워크가 score map과 geometry map의 정보를 pixel-wise로 표현