R2CNN은 Faster R-CNN의 아키텍처를 기반으로 이루워져있습니다.
가장 큰 차이점은 축과 나란한 box 좌표와 기울어진 box 좌표를 둘 다 output으로 얻어내 사용하는 것과 더 많은 텍스트 유형을 검출하기 위해 서로다른 크기의 ROI Pooling을 진행합니다.
<R2CNN 진행 과정>
(1) CNN feature maps에서 RPN을 거처 roi를 얻어냄
(2) feature map에 얻어낸 roi를 투영 시킨 뒤 fully connected layer의 입력으로 넣기위해 proposal 마다 (7x7, 3x11, 11x3) 여러 크기의 ROIPooling을 수행
(3) fully connected layer 거처
(4) text/non-text score(객체가 있는지 없는지에 대한 score), 축과 나란한 방향을 가지는 box(axis-aligned box)의 중심좌표와 높이 너비, 그리고 임의의 방향을 가지는 box(inclined box)의 왼쪽 상단 좌표와 오른쪽 상단 좌표(시계방향) 그리고 높이에 대한 예측을 수행
(5) NMS를 통해 최종 bounding box를 얻어 냄