DeepDeSRT (Table Extraction)

daeungdaeung·2021년 9월 29일
0

논문리뷰

목록 보기
1/3

Table Extraction 기술에 대하여 작성합니다.

논문 제목: DeepDeSRT: Deep Learning for Detection and Structure Recognition of Tables in Document Images

DeepDeSRT

DeepDeSRT 시스템은 table detection & table structure recognition으로 나눠집니다.

Deep Learning for Table Detection

  • Document 안에 있는 테이블의 위치를 찾습니다.

  • 일반적인 object detection 기술과 개념적으로 유사하기 때문에, natural scene image에서 사용된 object detection framworks를 활용합니다.

    • domain adaptation

    • transfer learning

  • Faster R-CNN(FRCN)을 basic framework로 활용했습니다.

    • FRCN 모델은 두가지 특징이 있습니다.

      • Region proposal network(RPN)를 활용하여 region proposals를 생성합니다.

      • 생성된 region proposals를 Fast-RCNN으로 분류합니다.

  • 두 modules의 backbone으로 ZFNetVGG-16을 사용했습니다.

Deep Learning for Structure Recognition

  • table detection이 끝나면 rows와 columns 위치를 파악합니다.

  • table의 structure 인식table 인식과는 2가지 차이점이 있습니다.

    • 테이블 안에 많은 rows, columns이 있습니다.

    • rows가 서로 매우 가까이에 위치합니다. (column 이하동문)

  • 위 2가지 차이점은 table detection보다 table structure detection을 더욱 까다롭게 하기 때문에 다른 접근 방법이 필요합니다.

  • 이미지에서 fine-grained segmentation을 수행하려면 deep-learning based semantic segmentation tools이 필요합니다.

  • The FCN-Xs architectures

    • combine

      1. fully convolutional networks for arbitrary input sizes with skip connections (or Hyper Features used to integrate semantically coarse)

      2. fractionally strided convolutions which increase the resolution of the final segmentation masks

        • fractionally strided convolution은 deconvolution을 의미합니다.
    • 본 논문 저자의 의견: FCN-8s를 넘어서서 FCN-1s까지 extra skip connection을 추가하면 rows & columns를 예측하는데 도움이 될 것이다.

      • FCN-2s까지는 이전과 동일한 방법으로 upsampled를 진행한다.

      • 그런데 이 방법이 rows segmentation & detection에서 잘 작동하지 않는다.

      • 그래서 논문 저자는 scaling factors를 스스로 찾는 normalization layers으로 scale layers를 대체했다.

      • 제가 그냥 이해를 못하는 것일 수도 있고, 논문이 짧아 네트워크 architecture가 간단히 설명되었기에 당연히 이해 못한 것일 수도 있습니다. 여튼 현재 논문을 설명하고자 한 이 글 자체가 빈약하게 작성되었습니다... ㅠ

profile
개발자가 되고싶읍니다...

0개의 댓글