BROS: A Pre-trained Language Model Focusing on Text and Layout for Better Key Information Extraction from Documents

Tasker_Jang·2024년 12월 18일
0

Abstract

📌 연구 배경

  • 문서 이미지에서 키 정보 추출(KIE)을 위해서는 2D 공간의 문맥적, 공간적 의미 이해 필요
  • 기존 연구들: 시각적 특징과 텍스트, 레이아웃 결합에 중점
  • BROS: 기본으로 돌아가 텍스트와 레이아웃의 효과적 결합에 집중

🔍 주요 특징

1. 공간 정보 활용

  • 2D 공간에서 텍스트의 상대적 위치 인코딩
  • 시각적 특징 없이도 텍스트의 공간 관계 파악

2. Area-masking 전략

  • 레이블이 없는 문서로부터 학습
  • 영역 기반 마스킹으로 효과적인 사전 학습

3. 벤치마크 성능

  • 4개 KIE 벤치마크에서 우수한 성능
    • FUNSD
    • SROIE
    • CORD
    • SciTSR

💡 주요 기여점

1. 실제 과제 해결

  • 잘못된 텍스트 순서로 인한 오류 최소화
  • 적은 수의 학습 데이터로도 효율적 학습 가능

2. 단순하면서도 효과적

  • 시각적 특징 없이도 우수한 성능
  • 텍스트와 레이아웃 정보만으로 효과적인 정보 추출

3. 실용성

  • 오픈소스로 코드 공개 : 깃허브주소
  • 실제 응용 가능한 구현 제공

Introduction

KIE의 중요성

  • RPA에서 필수적인 작업
  • 주요 활용 사례:
    • 영수증에서 주문 목록 추출
    • 청구서에서 가격/세금 정보 추출
    • 양식 문서에서 키-값 쌍 추출

기술적 도전과제

  1. 다양한 레이아웃의 텍스트 이해
  2. 컴퓨터 비전과 NLP 기술의 결합 필요

🔍 기존 파이프라인의 구조

1. OCR 단계

  • 문서 이미지에서 텍스트 감지
  • 텍스트 블록 생성 및 내용 인식

2. Serializer 단계

  • 2D 공간의 텍스트 블록을 1D 시퀀스로 변환
  • 기본 방식: 위에서 아래, 왼쪽에서 오른쪽 정렬
  • NLP 기술 적용을 위한 전처리 과정

3. 파싱 단계

  • 직렬화된 텍스트 블록에서 주요 정보 추출

💡 BROS의 주요 혁신점

새로운 접근법

  • 시각적 특징 의존도 낮춤
  • 텍스트와 공간 정보의 효과적 결합에 집중

성능 개선

  • 기존 LayoutLM 대비 우수한 성능
  • 적은 훈련 데이터로도 효과적 학습 가능

실용성

  • 왜곡된 문서에 대한 강건성
  • 텍스트 블록 순서에 대한 의존도 최소화

Experiments

🔬 실험 설정 상세

1. 사전학습 데이터

  • IIT-CDIP Test Collection: 약 1100만 문서 이미지
  • RVL-CDIP 데이터셋 40만개 제외
  • CLOVA OCR API 사용

2. 모델 구조

BROSBASE

  • Hidden size: 768
  • Self-attention heads: 12
  • Feed-forward size: 3072
  • Transformer layers: 12

BROSLARGE

  • Hidden size: 1024
  • Self-attention heads: 24
  • Feed-forward size: 4096
  • Transformer layers: 24

📊 주요 실험 결과

1. 정렬된 데이터 성능

  • FUNSD EE 태스크에서 SOTA 달성
    • BASE: 83.05% (2.51%p 향상)
    • LARGE: 84.52% (5.57%p 향상)
  • 추가 시각 정보 없이도 경쟁력 있는 성능

2. 무작위 정렬 데이터 성능

  • 텍스트 블록 순서 섞은 데이터셋 평가
  • SPADE 디코더 활용
  • 기존 모델 대비 성능 저하 최소화

3. 적은 데이터 학습 성능

  • 5~10개 샘플로도 효과적 학습
  • 전체 데이터의 10%~100% 활용 실험
  • 모든 데이터 비율에서 최고 성능

🔍 Ablation Study

1. 컴포넌트별 기여도

  • 위치 인코딩: 평균 3.62%p 향상
  • 사전학습 목표: 평균 1.14%p 향상
  • 둘 다 적용: 평균 5.10%p 향상

2. 위치 인코딩 방식 비교

  • 절대 위치 < LayoutLMv2 상대 위치 < BROS 방식
  • 특히 EL 태스크에서 큰 성능 차이

Conclusion

💡 핵심 아이디어

1. 모델링 접근

  • 텍스트와 레이아웃 정보에 집중
  • 2D 공간에서의 상대적 위치 인코딩
  • 영역 마스킹 전략을 통한 사전학습

2. 차별성

  • 추가 시각 정보 없이 우수한 성능
  • 실제 환경에서의 강건성
  • 적은 학습 데이터로도 효과적

🌟 주요 기여점

기술적 혁신

  1. 상대적 위치 기반 공간 인코딩

    • 텍스트 블록 간 관계 명시적 표현
    • 2D 공간 특성 효과적 포착
  2. 영역 마스킹 전략

    • 2D 공간의 문맥 이해 향상
    • 문서 구조 학습 효율화

실용적 가치

  1. 불완전한 텍스트 직렬화에 강건
  2. 적은 학습 데이터로도 높은 성능
  3. 계산 효율성 향상

🔑 핵심 성과

  • 시각 특징 없이도 SOTA 성능 달성
  • 실제 환경의 도전과제 해결
  • 효율적이고 실용적인 모델 구현
profile
터널을 지나고 있을 뿐, 길은 여전히 열려 있다.

0개의 댓글