[UNI-D Datathon] Document Layout Analysis

chelseey·2025년 11월 10일

DLA(Document Layout Analysis)

문서 내 각종 요소의 위치, 크기, 유형, 그리고 이들 사이의 구조적·논리적 관계를 인식하고 분석하는 기술

OCR : 텍스트 내용만 추출
DLA : 문서의 구조와 맥락까지 인식

블록 분할(Segmentation)
: 문서 이미지를 여러 의미 있는 영역(block)으로 잘라냄
ex. 텍스트 블록, 표(Table), 그림(Figure), 수식 등
클래스 분류(Classification)
: 분할된 각 블록의 유형 및 역할을 분류
ex. 제목, 본문, 캡션, 표, 차트, 사이드바 등
좌표/형태 정보 추출
: 각 블록의 좌표(Bounding Box:( $x_1,y_1,x_2,y_2$ )) 등을 추출
읽기 순서 & 논리 구조 추정
: 블록별 읽기 순서와 각 단락, 섹션 등의 논리/계층 구조를 분석
ex. 1장-1.1절-1.2절 등, 단락의 선후 관계와 계층화
특수 요소 인식/세부 구조 분석
: 표 구조·리스트·수식·코드블록 등 고유 형식의 세부 구조 분석
블록 간 관계 및 연결 추출
: 표와 캡션, 그림과 캡션 등 요소 간의 관계를 추출하여, 문서 내 의미적 연결을 강화
구조화 데이터 생성
: 전체 결과를 JSON, XML 등 형태로 구조화

: 예측 박스와 정답 박스가 얼마나 겹치는지 측정하는 지표

IoU = \frac{\text{교집합 영역}}{\text{합집합 영역}} = \frac{\text{Predicted} \cap \text{Ground Truth}}{\text{Predicted} \cup \text{Ground Truth}}