Document Digitization은 문서를 사람이 아닌 기계가 읽을 수 있는 형태(예: 텍스트, HTML, Markdown)로 변환하는 과정
이렇게 변환된 문서는 검색, 요약, 정보 추출 등 AI 기반 처리의 입력 데이터로 활용
문서의 텍스트와 레이아웃(단락, 표, 이미지, 수식 등)을 인식해
구조화된 HTML 혹은 Markdown 형태로 변환한다.
내부적으로 OCR을 포함하고 있으며, 단순 문자 인식보다 높은 수준의 정보를 제공한다.
문서 내 텍스트만 추출하는 방식으로,
위치 정보나 구조보다는 빠른 문자 인식에 초점을 둠
요약
- 텍스트만 빠르게 뽑고 싶다면 → Document OCR
- 문서의 구조(표, 차트 등)까지 인식하고 싶다면 → Document Parse
Document Digitization 기술은 단순히 텍스트를 추출하는 것이 아니라,
AI가 문서를 이해할 수 있도록 구조화하는 것이 핵심
즉,
Document Digitization은 LLM 파이프라인의 전처리 과정에 해당
문서를 LLM에 활용하려면, 문서 내 단락·표·수식·이미지 등 구조를 인식해야 함
이 역할을 Document Parse가 수행
활용 예시
Upstage Document Parse는 다양한 문서를 자동으로 HTML로 변환하는 API이다.
문서 내의 단락, 표, 이미지, 수식, 차트 등을 감지하고
LLM이 이해할 수 있는 구조로 직렬화
Document Parse API를 활용하면 문서를 HTML 형태로 변환하고,
그 결과를 기반으로 재무제표 분석 챗봇을 만들 수 있음
주요 기능
활용 예시 코드
import requests
api_key = "UPSTAGE_API_KEY"
filename = "your_file.pdf"
response = requests.post(
"https://api.upstage.ai/v1/document-digitization",
headers={"Authorization": f"Bearer {api_key}"},
files={"document": open(filename, "rb")},
data={
"ocr": "force",
"coordinates": True,
"chart_recognition": True,
"output_formats": '["html"]',
"model": "document-parse"
}
)
print(response.json())
입력 조건
출력 구조
<table>, <figure>, <p> 등)coordinates(상대 좌표)가 포함되어 위치 정보를 제공<figure data-category="chart"> 내부의 <table> 형태로 변환<p data-category="equation">$$...$$</p> 로 출력요청과 응답이 즉시 일어나는 방식 -> 결과를 바로 받아볼 수 있어 테스트나 소규모 문서에 적합
response = requests.post(
"https://api.upstage.ai/v1/document-digitization",
headers={"Authorization": f"Bearer {api_key}"},
files={"document": open(filename, "rb")},
data={"model": "document-parse"}
)
print(response.json())
요청 시 request_id를 먼저 받고, 결과를 나중에 별도의 API로 조회하는 방식
# 비동기 요청
url = "https://api.upstage.ai/v1/document-digitization/async"
response = requests.post(url, headers=headers, files=files, data=data)
print(response.json()) # {"request_id": "e7b1..."}
# 결과 조회
url = f"https://api.upstage.ai/v1/document-digitization/requests/{request_id}"
response = requests.get(url, headers=headers)
print(response.json())
request_id 반환Document OCR (Optical Character Recognition)은 문서 이미지에서 텍스트를 감지하고 인식하는 기술
활용 시점
Upstage Document OCR을 이용하면 이미지 속 영어 손글씨를 추출해 LLM(Solar)을 이용해 한국어 번역 챗봇을 구현 가능
주요 기능
입력 조건
출력 예시
{
"apiVersion": "1.1",
"modelVersion": "ocr-2.2.1",
"pages": [
{
"page": 1,
"text": "Print the words \\nhello, world",
"confidence": 0.99,
"words": [
{
"text": "hello",
"boundingBox": {
"vertices": [
{"x": 65, "y": 52},
{"x": 221, "y": 55},
{"x": 221, "y": 104},
{"x": 65, "y": 104}
]
}
}
]
}
]
}
text: 인식된 텍스트confidence: 신뢰도 점수boundingBox: 단어의 위치 좌표confidence) 영역은 후처리나 사용자 확인에 활용 가능| 구분 | 설명 |
|---|---|
| Document Digitization | 문서를 기계가 이해할 수 있는 구조(HTML, Markdown 등)로 변환하는 과정 |
| Document Parse | 문서의 구조적 요소(표, 이미지, 수식 등)를 포함한 고도화된 파싱 기능 |
| Document OCR | 텍스트만 빠르게 추출할 때 사용 |
| 활용 분야 | RAG 시스템, 문서 요약, 문서 검색, 자동 번역, 데이터 파이프라인 등 |
Document Digitization은 문서를 단순 텍스트로 변환하는 수준을 넘어,
AI가 문서를 이해하고 활용할 수 있는 형태로 재구성하는 핵심 기술
이 과정을 통해 문서 기반 LLM 서비스의 정확도와 효율성을 크게 향상시킬 수 있음