Getting Started with Document Digitization

Seoyeon·2025년 11월 10일

AI

목록 보기
2/2

1. Document Digitization이란?

Document Digitization은 문서를 사람이 아닌 기계가 읽을 수 있는 형태(예: 텍스트, HTML, Markdown)로 변환하는 과정
이렇게 변환된 문서는 검색, 요약, 정보 추출 등 AI 기반 처리의 입력 데이터로 활용

1) Document Parse

문서의 텍스트와 레이아웃(단락, 표, 이미지, 수식 등)을 인식해
구조화된 HTML 혹은 Markdown 형태로 변환한다.
내부적으로 OCR을 포함하고 있으며, 단순 문자 인식보다 높은 수준의 정보를 제공한다.

2) Document OCR

문서 내 텍스트만 추출하는 방식으로,
위치 정보나 구조보다는 빠른 문자 인식에 초점을 둠

요약

  • 텍스트만 빠르게 뽑고 싶다면 → Document OCR
  • 문서의 구조(표, 차트 등)까지 인식하고 싶다면 → Document Parse

2. Document Digitization API는 언제 사용할까?

Document Digitization 기술은 단순히 텍스트를 추출하는 것이 아니라,
AI가 문서를 이해할 수 있도록 구조화하는 것이 핵심

  • 콘솔 데모는 사람이 직접 파일을 올리고 결과를 확인하는 테스트용
  • API는 서비스나 파이프라인 내에서 자동으로 문서를 불러오고 분석할 때 사용

즉,

  • “한 번 테스트”는 콘솔
  • “자동화 및 운영 환경”은 API

LLM 입력을 위한 전처리

Document Digitization은 LLM 파이프라인의 전처리 과정에 해당
문서를 LLM에 활용하려면, 문서 내 단락·표·수식·이미지 등 구조를 인식해야 함
이 역할을 Document Parse가 수행

활용 예시

  • 특허 문서를 문단 단위로 분할 → RAG 시스템에 연결
  • 논문 PDF를 파싱 → 요약/하이라이트 기능을 제공하는 애플리케이션 제작

3. Document Parse

3.1 Document Parse란?

Upstage Document Parse는 다양한 문서를 자동으로 HTML로 변환하는 API이다.
문서 내의 단락, 표, 이미지, 수식, 차트 등을 감지하고
LLM이 이해할 수 있는 구조로 직렬화


3.2 Demo: 재무제표 분석 챗봇

Document Parse API를 활용하면 문서를 HTML 형태로 변환하고,
그 결과를 기반으로 재무제표 분석 챗봇을 만들 수 있음

주요 기능

  • Document Parse API로 재무제표를 HTML 구조로 변환
  • Solar LLM으로 재무제표 기반 Q&A 수행

활용 예시 코드

import requests

api_key = "UPSTAGE_API_KEY"
filename = "your_file.pdf"

response = requests.post(
    "https://api.upstage.ai/v1/document-digitization",
    headers={"Authorization": f"Bearer {api_key}"},
    files={"document": open(filename, "rb")},
    data={
      "ocr": "force",
      "coordinates": True,
      "chart_recognition": True,
      "output_formats": '["html"]',
      "model": "document-parse"
    }
)
print(response.json())

3.3 Document Parse Input & Output 구조

입력 조건

  • 지원 형식: JPEG, PNG, PDF, DOCX, PPTX, XLSX 등
  • 최대 파일 크기: 50MB
  • 동기 API: 최대 100페이지 / 비동기 API: 최대 1,000페이지
  • OCR 지원 언어: 한글, 영어, 한자, 숫자

출력 구조

  • 문서 구조를 HTML 태그 기반으로 변환 (<table>, <figure>, <p> 등)
  • 각 요소에는 coordinates(상대 좌표)가 포함되어 위치 정보를 제공
  • 차트는 <figure data-category="chart"> 내부의 <table> 형태로 변환
  • 수식은 LaTeX 형태로 변환되어 <p data-category="equation">$$...$$</p> 로 출력

3.4 API 호출 방식

(1) 동기(Synchronous) API

요청과 응답이 즉시 일어나는 방식 -> 결과를 바로 받아볼 수 있어 테스트나 소규모 문서에 적합

response = requests.post(
    "https://api.upstage.ai/v1/document-digitization",
    headers={"Authorization": f"Bearer {api_key}"},
    files={"document": open(filename, "rb")},
    data={"model": "document-parse"}
)
print(response.json())
  • 최대 100페이지 지원
  • 요청 즉시 결과 반환

(2) 비동기(Asynchronous) API

요청 시 request_id를 먼저 받고, 결과를 나중에 별도의 API로 조회하는 방식

# 비동기 요청
url = "https://api.upstage.ai/v1/document-digitization/async"
response = requests.post(url, headers=headers, files=files, data=data)
print(response.json())  # {"request_id": "e7b1..."}

# 결과 조회
url = f"https://api.upstage.ai/v1/document-digitization/requests/{request_id}"
response = requests.get(url, headers=headers)
print(response.json())
  • 최대 1,000페이지 지원
  • 요청 즉시 request_id 반환
  • 대량 문서 처리나 자동화 시스템에 적합

4. Document OCR

4.1 Document OCR이란?

Document OCR (Optical Character Recognition)은 문서 이미지에서 텍스트를 감지하고 인식하는 기술

활용 시점

  • 문서의 구조(표, 차트 등)는 필요 없고 텍스트만 빠르게 추출하고 싶을 때
  • 스캔 이미지, 손글씨 등에서 텍스트만 얻고 싶을 때

4.2 Demo: 영어 손글씨 편지 번역기

Upstage Document OCR을 이용하면 이미지 속 영어 손글씨를 추출해 LLM(Solar)을 이용해 한국어 번역 챗봇을 구현 가능

주요 기능

  • Document OCR로 텍스트 추출
  • Solar LLM으로 번역 수행

4.3 Document OCR Input & Output 구조

입력 조건

  • 지원 형식: JPEG, PNG, PDF 등
  • 최대 파일 크기: 50MB / 최대 30페이지
  • 지원 언어: 영어, 한글, 한자

출력 예시

{
  "apiVersion": "1.1",
  "modelVersion": "ocr-2.2.1",
  "pages": [
    {
      "page": 1,
      "text": "Print the words \\nhello, world",
      "confidence": 0.99,
      "words": [
        {
          "text": "hello",
          "boundingBox": {
            "vertices": [
              {"x": 65, "y": 52},
              {"x": 221, "y": 55},
              {"x": 221, "y": 104},
              {"x": 65, "y": 104}
            ]
          }
        }
      ]
    }
  ]
}
  • text: 인식된 텍스트
  • confidence: 신뢰도 점수
  • boundingBox: 단어의 위치 좌표

4.4 OCR의 강점

  • 회전된 이미지, 워터마크, 노이즈가 있는 문서에서도 높은 인식률
  • 낮은 신뢰도(confidence) 영역은 후처리나 사용자 확인에 활용 가능

5. Wrap-Up

구분설명
Document Digitization문서를 기계가 이해할 수 있는 구조(HTML, Markdown 등)로 변환하는 과정
Document Parse문서의 구조적 요소(표, 이미지, 수식 등)를 포함한 고도화된 파싱 기능
Document OCR텍스트만 빠르게 추출할 때 사용
활용 분야RAG 시스템, 문서 요약, 문서 검색, 자동 번역, 데이터 파이프라인 등

Document Digitization은 문서를 단순 텍스트로 변환하는 수준을 넘어,
AI가 문서를 이해하고 활용할 수 있는 형태로 재구성하는 핵심 기술
이 과정을 통해 문서 기반 LLM 서비스의 정확도와 효율성을 크게 향상시킬 수 있음

0개의 댓글