[UNI-D Datathon] Document Layout Analysis

chelseey·2025년 11월 10일

DLA(Document Layout Analysis)

문서 내 각종 요소의 위치, 크기, 유형, 그리고 이들 사이의 구조적·논리적 관계를 인식하고 분석하는 기술

DLA의 목적

  • 문서를 레이아웃 단위 블록으로 자름
  • 각 블록의 역할(semantic role) 라벨링
  • 각 블록의 좌표(box), 크기 등 메타데이터도 함께 구조화
  • 검색, QA, RAG, VLM, 자동 요약 등에 활용

DLA vs OCR

OCR : 텍스트 내용만 추출
DLA : 문서의 구조와 맥락까지 인식

DLA의 주요 작업

  1. 블록 분할(Segmentation)
    : 문서 이미지를 여러 의미 있는 영역(block)으로 잘라냄
    ex. 텍스트 블록, 표(Table), 그림(Figure), 수식 등

  2. 클래스 분류(Classification)
    : 분할된 각 블록의 유형 및 역할을 분류
    ex. 제목, 본문, 캡션, 표, 차트, 사이드바 등

  3. 좌표/형태 정보 추출
    : 각 블록의 좌표(Bounding Box:(x1,y1,x2,y2x_1,y_1,x_2,y_2)) 등을 추출

  4. 읽기 순서 & 논리 구조 추정
    : 블록별 읽기 순서와 각 단락, 섹션 등의 논리/계층 구조를 분석
    ex. 1장-1.1절-1.2절 등, 단락의 선후 관계와 계층화

  5. 특수 요소 인식/세부 구조 분석
    : 표 구조·리스트·수식·코드블록 등 고유 형식의 세부 구조 분석

  6. 블록 간 관계 및 연결 추출
    : 표와 캡션, 그림과 캡션 등 요소 간의 관계를 추출하여, 문서 내 의미적 연결을 강화

  7. 구조화 데이터 생성
    : 전체 결과를 JSON, XML 등 형태로 구조화

주요 Layout Analyzer

API

  • Upstage Layout Analyzer / Document Parse
  • Azure AI Document Intelligence

오픈소스 모델

  • LayoutLM (Microsoft)
  • Donut (Naver Clova)
  • Pix2Struct (Google)

DLA의 평가 지표

IoU(Intersection over Union)

: 예측 박스와 정답 박스가 얼마나 겹치는지 측정하는 지표

IoU=교집합 영역합집합 영역=PredictedGround TruthPredictedGround TruthIoU = \frac{\text{교집합 영역}}{\text{합집합 영역}} = \frac{\text{Predicted} \cap \text{Ground Truth}}{\text{Predicted} \cup \text{Ground Truth}}

SCAN (Semantic Document Layout Analysis)

0개의 댓글