[P_stage] - week 15 day 1-2

eric9687·2021년 11월 9일

Naver_Boostcamp_AITech2기 데이터제작

[week15] 2021/10/25-29

강의 리뷰

데이터 제작 4강 - Text Detection 소개 1

일반 객체 영역 검출 & 글자 영역 검출
- 일반 객체 검출: 클래스와 위치를 예측하는 문제
- 글자 검출: "text"라는 단일 클래스 -> 위치만 예측하는 문제
- 글자 객체의 특징
  - 매우 높은 밀도
  - 극단적 종횡비
  - 특이 모양: 구겨진 영역, 휘어진 영역, 세로 쓰기 영역
  - 모호한 객체 영역: annotation방법에 따라
  - 크기 편차
- 글자 영역 표현법
  - 직사각형
  - 직사각형 + 각도
  - 임의의 사각형: 시계 방향
  - 다각형: 2N points
Taxonomy(글자영역 검출 기술)
- SW 1.0: 사람이 고민하여 설계한 특징 추출 모듈 + ML모듈
  - HOG, MSER, SWT features
  - sobel같은 edge detection등의 복잡한 연산
- SW 2.0: 특징추출 + 판단이 모델구조 데이터 최적화 방식, 자동으로.
  - 파이프라인의 단순화
  - 사람의 개입을 최소화
  - 성능이 더 좋음
Regression- based & Segmentation-based
- Regression-based: 이미지를 입력받아 글자영역 표현값들을 바로 출력
  - TextBoxes'18: anchor 박스로 글자영역의 상대값 추출(사각형에만 적절,anchor box보다 크면 성능 저하)
- Segmentation-based: 이미지를 입력받아 글자 영역 표현값들에 사용되는 화소단위 정보를 뽑고, 후처리를 통해서 최종글자 영역 표현 값들을 확보
  - PixelLink'18: 각 화소 별로 글자영역에 속할 확률, 8개 방향으로 인접한 화소도 글자영역에 포함되는 8개채널로 표현. 후처리: 이진화, 연결된 성분 분석(CCA),RBOX정합
  - 후처리가 복잘할 수 있어 시간이 오래 걸릴 수 있음
  - 서로 간섭이 있거나 인접한 개체 간의 구분이 어려움
- Hybrid: R + S
  - MaskTextSpotter'18: fast RCNN으로 사각영역을 찾고 화소별 영역 정보 추출
- Character-Based Methods: 글자단위로 검출후 조합하여 word instance를 예측, character-level GT 필요(라벨링).
  - CRAFT'19: 글자별 위치정보와 연결성을 예측하여 단어로 조합
- Word-Based Methods: 단어단위로
EAST: Efficient and Accurate Scene Text Detector
- idea
  
  - 네트워크가 score map과 geometry map의 정보를 pixel-wise로 표현
- Architecture: Fully Covolutional Network
  - Feature extractor stem(backbone): PVANet, VGGNet, ResNet50
  - Feature merging branch: Unpool로 크기 맞추고 concat, 1*1,3*3conv로 channel수 조절
  - output: H/4 * W/4 * C maps
- Output
  - H/4 * W/4 * 1 binary map : 글자1, 배경 0
  - GT bounding box를 줄여서 생성
  - Geometry Map: 어떤 화소가 글자영역이라면 해당 Bounding box의 위치는 어디인지. RBOX(직사각형+각도 = 5channel). QUAD(좌표4개,8channel)
- Inference
  - Post-processing: RBOX기준. socre map 이진화 -> 사각형 좌표값 복원 -> Non-Maximum Supression(연산량이 많아 Locality-Aware NMS로 대체)
- Locality-Aware NMS: 인접한 픽셀에 예측한 bounding box들은 같은 text instance일 가능성이 높음. 위치순서로 탐색하여 비슷한 것들을 하나로 통합(IoU기반). 통합시 score map값으로 weighted merge.
- Training
  - score map loss: class-balanced cross-entropy(논문) 또는 Dice-Coefficient
  - geometry map loss: 직사각형은 IoU loss + 각도값은 cosine loss
- Results
  - F-score & Speed

데이터 제작 4강 - Text Detection 소개 1

eric9687

그러나 먼저 된 자로서 나중되고 나중 된 자로서 먼저될 자가 많으니라(마:19:30)

[P_stage] - week 15 day 1-2

[week15] 2021/10/25-29

강의 리뷰

데이터 제작 4강 - Text Detection 소개 1

데이터 제작 4강 - Text Detection 소개 1

[P_stage] - week14

[P_stage] - week 15 day 3-4

0개의 댓글