Abstract
자기지도 사전학습 기술은 문서 AI 분야에서 주목할 만한 발전을 이루었습니다. 대부분의 멀티모달 사전학습 모델들은 텍스트 양식에서 양방향 표현을 학습하기 위해 마스크 언어 모델링 목표를 사용하지만, 이미지 양식에 대해서는 서로 다른 사전학습 목표를 사용합니다. 이러한 불일치는 멀티모달 표현 학습을 더욱 어렵게 만듭니다.
Introduction
Document AI의 혁신: LayoutLMv3 소개
📌 연구 배경
최근 몇 년간 사전학습 기술은 문서 이해 작업에서 주목할 만한 발전을 이루며 Document AI 커뮤니티에 큰 반향을 일으키고 있습니다.
사전학습된 Document AI 모델의 능력:
- 다양한 문서의 레이아웃 파싱
- 핵심 정보 추출 (스캔된 양식, 학술 논문 등)
- 산업 응용 및 학술 연구 지원
💡 기존 기술의 한계
1. 텍스트 모달리티
- BERT의 "마스크 언어 모델링"(MLM) 사용
- 문맥 기반 마스킹된 단어 토큰의 원래 어휘 ID 예측
- 양방향 표현 학습
2. 이미지 모달리티의 다양한 접근
🚀 LayoutLMv3의 혁신점
1. 통합된 접근방식
- 텍스트와 이미지 마스킹 목표 통합 (MLM과 MIM)
- 이미지 패치 직접 활용
- CNN 없이 이미지 임베딩 구현
2. 주요 특징
- 파라미터 효율성
- 영역 주석 불필요
- 간단하고 깔끔한 아키텍처
- 범용 Document AI 작업 지원
🎯 주요 기여점
-
CNN 의존성 제거
- 최초로 사전학습된 CNN이나 Faster R-CNN 백본 없이 시각적 특징 추출
- 파라미터 절감 및 영역 주석 제거
-
통합된 학습 목표
- 텍스트와 이미지의 멀티모달 표현 학습 격차 해소
- Word-Patch Alignment (WPA) 목표 도입
-
범용성 확보
- 텍스트 중심 및 이미지 중심 Document AI 작업 모두 지원
- 멀티모달 트랜스포머의 비전 작업 적용 가능성 입증
-
성능 입증
- 텍스트 중심 작업에서 최고 성능 달성
- 이미지 중심 작업에서도 우수한 성능 입증
🔗 리소스
코드와 모델: LayoutLMv3 GitHub
LayoutLMv3
📊 모델 아키텍처
기본 구조
LayoutLMv3는 텍스트-이미지 멀티모달 트랜스포머를 사용하여 교차 양식 표현을 학습합니다.
트랜스포머는 다층 구조를 가지며, 각 층은 주로 멀티헤드 셀프 어텐션과 위치 기반 완전 연결 피드포워드 네트워크로 구성됩니다.
입력 구성
- 텍스트 임베딩 시퀀스 (Y = y1:L)
- 이미지 임베딩 시퀀스 (X = x1:M)
- L과 M은 각각 텍스트와 이미지의 시퀀스 길이
텍스트 임베딩 구성요소
- 단어 임베딩
- RoBERTa 사전학습 모델의 단어 임베딩 행렬로 초기화
- 위치 임베딩
- 1D 위치: 텍스트 시퀀스 내 토큰 인덱스
- 2D 레이아웃 위치: 텍스트의 경계 상자 좌표
- 세그먼트 레벨 레이아웃 위치 채택
이미지 임베딩 혁신점
- CNN 그리드 특징이나 Faster R-CNN 영역 특징 대신 선형 투영 사용
- 처리 과정:
- 문서 이미지를 H×W 크기로 조정
- P×P 크기의 균일한 패치로 분할
- 패치를 D 차원으로 선형 투영
- 벡터 시퀀스로 평탄화 (길이 = HW/P²)
🎯 사전학습 목표
1. 마스크 언어 모델링 (MLM)
- 텍스트 토큰의 30% 마스킹
- 스팬 마스킹 전략 사용 (포아송 분포, λ=3)
- 손실 함수:
L_MLM(θ) = -Σ log p_θ(y_l | X_M', Y_L')
2. 마스크 이미지 모델링 (MIM)
- 이미지 토큰의 40% 블록 단위 마스킹
- 이미지 토크나이저 사용하여 레이블 생성
- 손실 함수:
L_MIM(θ) = -Σ log p_θ(x_m | X_M', Y_L')
3. 단어-패치 정렬 (WPA)
- 텍스트 단어와 이미지 패치 간의 정밀한 정렬 학습
- 이진 분류 문제로 접근 (정렬/비정렬)
- 손실 함수:
L_WPA(θ) = -Σ log p_θ(z_l | X_M', Y_L')
💡 주요 특징
- CNN 없는 최초의 Document AI 멀티모달 모델
- 파라미터 감소 및 전처리 단계 간소화
- 통합된 사전학습 목표 (L = L_MLM + L_MIM + L_WPA)
- 효율적인 세그먼트 레벨 레이아웃 위치 정보 활용
EXPERIMENTS
🔧 모델 구성
기본 모델 (LayoutLMv3BASE)
- 12층 트랜스포머 인코더
- 12-헤드 셀프 어텐션
- 은닉층 크기: 768
- 피드포워드 네트워크 중간 크기: 3,072
대형 모델 (LayoutLMv3LARGE)
- 24층 트랜스포머 인코더
- 16-헤드 셀프 어텐션
- 은닉층 크기: 1,024
- 피드포워드 네트워크 중간 크기: 4,096
입력 처리
- 텍스트: BPE 토크나이징 (최대 길이 512)
- 이미지: 224×224 크기, 16×16 패치, 총 196개 패치
🎓 사전학습 세부사항
데이터셋
- IIT-CDIP Test Collection 1.0
- 약 1,100만 개의 문서 이미지 사용
학습 설정
- Adam 옵티마이저 사용
- 배치 크기: 2,048
- 총 500,000 스텝
- 가중치 감쇠: 0.01
- β1 = 0.9, β2 = 0.98
모델별 학습률
- BASE: 1e-4 (웜업 4.8%)
- LARGE: 5e-5 (웜업 10%)
📊 주요 실험 결과
1. 양식 및 영수증 이해
- FUNSD 데이터셋
- F1 점수: 92.08 (LARGE)
- 기존 SOTA 대비 큰 성능 향상
- CORD 데이터셋
- BASE와 LARGE 모두 SOTA 달성
- 텍스트 중심 작업에서 우수한 성능
2. 문서 이미지 분류 (RVL-CDIP)
- 기존 모델 대비 더 작은 모델 크기로 동등 이상 성능
- LayoutLMv2 대비:
- BASE: 0.19% 향상
- LARGE: 0.29% 향상
3. 문서 시각 질의응답 (DocVQA)
- BASE 모델: ANLS 78.76 달성
- LARGE 모델: BASE 대비 4.61 점수 향상
4. 문서 레이아웃 분석 (PubLayNet)
- 전체 mAP: 95.1 달성
- 특히 "Title" 카테고리에서 높은 성능
💡 중요 발견점
이미지 임베딩 효과
- 언어 모달리티가 문서 이해에 핵심 역할
- 단순한 선형 이미지 임베딩으로도 성능 향상
- 텍스트/이미지 중심 작업 모두에서 효과적
MIM 사전학습의 영향
- 시각적 표현 학습에 필수적
- 특히 레이아웃 분석에서 중요
- 학습 안정화에 기여
WPA 목표의 효과
- 모든 작업에서 일관된 성능 향상
- 교차 모달 표현 학습 개선
- 이미지 표현 학습에도 긍정적 영향