BROS: A Pre-trained Language Model Focusing on Text and Layout for Better Key Information Extraction from Documents

Tasker_Jang·2024년 12월 18일

Document 인공지능

0

Abstract

📌 연구 배경

문서 이미지에서 키 정보 추출(KIE)을 위해서는 2D 공간의 문맥적, 공간적 의미 이해 필요
기존 연구들: 시각적 특징과 텍스트, 레이아웃 결합에 중점
BROS: 기본으로 돌아가 텍스트와 레이아웃의 효과적 결합에 집중

🔍 주요 특징

1. 공간 정보 활용

2D 공간에서 텍스트의 상대적 위치 인코딩
시각적 특징 없이도 텍스트의 공간 관계 파악

2. Area-masking 전략

레이블이 없는 문서로부터 학습
영역 기반 마스킹으로 효과적인 사전 학습

3. 벤치마크 성능

4개 KIE 벤치마크에서 우수한 성능
- FUNSD
- SROIE
- CORD
- SciTSR

💡 주요 기여점

1. 실제 과제 해결

잘못된 텍스트 순서로 인한 오류 최소화
적은 수의 학습 데이터로도 효율적 학습 가능

2. 단순하면서도 효과적

시각적 특징 없이도 우수한 성능
텍스트와 레이아웃 정보만으로 효과적인 정보 추출

3. 실용성

오픈소스로 코드 공개 : 깃허브주소
실제 응용 가능한 구현 제공

Introduction

KIE의 중요성

RPA에서 필수적인 작업
주요 활용 사례:
- 영수증에서 주문 목록 추출
- 청구서에서 가격/세금 정보 추출
- 양식 문서에서 키-값 쌍 추출

기술적 도전과제

다양한 레이아웃의 텍스트 이해
컴퓨터 비전과 NLP 기술의 결합 필요

🔍 기존 파이프라인의 구조

1. OCR 단계

문서 이미지에서 텍스트 감지
텍스트 블록 생성 및 내용 인식

2. Serializer 단계

2D 공간의 텍스트 블록을 1D 시퀀스로 변환
기본 방식: 위에서 아래, 왼쪽에서 오른쪽 정렬
NLP 기술 적용을 위한 전처리 과정

3. 파싱 단계

직렬화된 텍스트 블록에서 주요 정보 추출

💡 BROS의 주요 혁신점

새로운 접근법

시각적 특징 의존도 낮춤
텍스트와 공간 정보의 효과적 결합에 집중

성능 개선

기존 LayoutLM 대비 우수한 성능
적은 훈련 데이터로도 효과적 학습 가능

실용성

왜곡된 문서에 대한 강건성
텍스트 블록 순서에 대한 의존도 최소화

Experiments

🔬 실험 설정 상세

1. 사전학습 데이터

IIT-CDIP Test Collection: 약 1100만 문서 이미지
RVL-CDIP 데이터셋 40만개 제외
CLOVA OCR API 사용

2. 모델 구조

BROSBASE

Hidden size: 768
Self-attention heads: 12
Feed-forward size: 3072
Transformer layers: 12

BROSLARGE

Hidden size: 1024
Self-attention heads: 24
Feed-forward size: 4096
Transformer layers: 24

📊 주요 실험 결과

1. 정렬된 데이터 성능

FUNSD EE 태스크에서 SOTA 달성
- BASE: 83.05% (2.51%p 향상)
- LARGE: 84.52% (5.57%p 향상)
추가 시각 정보 없이도 경쟁력 있는 성능

2. 무작위 정렬 데이터 성능

텍스트 블록 순서 섞은 데이터셋 평가
SPADE 디코더 활용
기존 모델 대비 성능 저하 최소화

3. 적은 데이터 학습 성능

5~10개 샘플로도 효과적 학습
전체 데이터의 10%~100% 활용 실험
모든 데이터 비율에서 최고 성능

🔍 Ablation Study

1. 컴포넌트별 기여도

위치 인코딩: 평균 3.62%p 향상
사전학습 목표: 평균 1.14%p 향상
둘 다 적용: 평균 5.10%p 향상

2. 위치 인코딩 방식 비교

절대 위치 < LayoutLMv2 상대 위치 < BROS 방식
특히 EL 태스크에서 큰 성능 차이

Conclusion

💡 핵심 아이디어

1. 모델링 접근

텍스트와 레이아웃 정보에 집중
2D 공간에서의 상대적 위치 인코딩
영역 마스킹 전략을 통한 사전학습

2. 차별성

추가 시각 정보 없이 우수한 성능
실제 환경에서의 강건성
적은 학습 데이터로도 효과적

🌟 주요 기여점

기술적 혁신

상대적 위치 기반 공간 인코딩
- 텍스트 블록 간 관계 명시적 표현
- 2D 공간 특성 효과적 포착
영역 마스킹 전략
- 2D 공간의 문맥 이해 향상
- 문서 구조 학습 효율화

실용적 가치

불완전한 텍스트 직렬화에 강건
적은 학습 데이터로도 높은 성능
계산 효율성 향상

🔑 핵심 성과

시각 특징 없이도 SOTA 성능 달성
실제 환경의 도전과제 해결
효율적이고 실용적인 모델 구현

터널을 지나고 있을 뿐, 길은 여전히 열려 있다.

이전 포스트

What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis

다음 포스트

DocFormer: End-to-End Transformer for Document Understanding

0개의 댓글

관련 채용 정보