[P_stage] - week 15 day 1-2

eric9687·2021년 11월 9일
0

[week15] 2021/10/25-29

강의 리뷰

데이터 제작 4강 - Text Detection 소개 1

  • 일반 객체 영역 검출 & 글자 영역 검출
    • 일반 객체 검출: 클래스와 위치를 예측하는 문제
    • 글자 검출: "text"라는 단일 클래스 -> 위치만 예측하는 문제
    • 글자 객체의 특징
      - 매우 높은 밀도
      - 극단적 종횡비
      - 특이 모양: 구겨진 영역, 휘어진 영역, 세로 쓰기 영역
      - 모호한 객체 영역: annotation방법에 따라
      - 크기 편차
    • 글자 영역 표현법
      - 직사각형
      - 직사각형 + 각도
      - 임의의 사각형: 시계 방향
      - 다각형: 2N points
  • Taxonomy(글자영역 검출 기술)
    • SW 1.0: 사람이 고민하여 설계한 특징 추출 모듈 + ML모듈
      - HOG, MSER, SWT features
      - sobel같은 edge detection등의 복잡한 연산
    • SW 2.0: 특징추출 + 판단이 모델구조 데이터 최적화 방식, 자동으로.
      - 파이프라인의 단순화
      - 사람의 개입을 최소화
      - 성능이 더 좋음
  • Regression- based & Segmentation-based
    • Regression-based: 이미지를 입력받아 글자영역 표현값들을 바로 출력
      - TextBoxes'18: anchor 박스로 글자영역의 상대값 추출(사각형에만 적절,anchor box보다 크면 성능 저하)
    • Segmentation-based: 이미지를 입력받아 글자 영역 표현값들에 사용되는 화소단위 정보를 뽑고, 후처리를 통해서 최종글자 영역 표현 값들을 확보
      - PixelLink'18: 각 화소 별로 글자영역에 속할 확률, 8개 방향으로 인접한 화소도 글자영역에 포함되는 8개채널로 표현. 후처리: 이진화, 연결된 성분 분석(CCA),RBOX정합
      - 후처리가 복잘할 수 있어 시간이 오래 걸릴 수 있음
      - 서로 간섭이 있거나 인접한 개체 간의 구분이 어려움
    • Hybrid: R + S
      - MaskTextSpotter'18: fast RCNN으로 사각영역을 찾고 화소별 영역 정보 추출
    • Character-Based Methods: 글자단위로 검출후 조합하여 word instance를 예측, character-level GT 필요(라벨링).
      - CRAFT'19: 글자별 위치정보와 연결성을 예측하여 단어로 조합
    • Word-Based Methods: 단어단위로
  • EAST: Efficient and Accurate Scene Text Detector
    • idea

      - 네트워크가 score map과 geometry map의 정보를 pixel-wise로 표현
    • Architecture: Fully Covolutional Network
      - Feature extractor stem(backbone): PVANet, VGGNet, ResNet50
      - Feature merging branch: Unpool로 크기 맞추고 concat, 1*1,3*3conv로 channel수 조절
      - output: H/4 * W/4 * C maps
    • Output
      - H/4 * W/4 * 1 binary map : 글자1, 배경 0
      - GT bounding box를 줄여서 생성
      - Geometry Map: 어떤 화소가 글자영역이라면 해당 Bounding box의 위치는 어디인지. RBOX(직사각형+각도 = 5channel). QUAD(좌표4개,8channel)
    • Inference
      - Post-processing: RBOX기준. socre map 이진화 -> 사각형 좌표값 복원 -> Non-Maximum Supression(연산량이 많아 Locality-Aware NMS로 대체)
    • Locality-Aware NMS: 인접한 픽셀에 예측한 bounding box들은 같은 text instance일 가능성이 높음. 위치순서로 탐색하여 비슷한 것들을 하나로 통합(IoU기반). 통합시 score map값으로 weighted merge.
    • Training
      - score map loss: class-balanced cross-entropy(논문) 또는 Dice-Coefficient
      - geometry map loss: 직사각형은 IoU loss + 각도값은 cosine loss
    • Results
      - F-score & Speed

데이터 제작 4강 - Text Detection 소개 1

profile
그러나 먼저 된 자로서 나중되고 나중 된 자로서 먼저될 자가 많으니라(마:19:30)

0개의 댓글