Upstage Document classification

남서현·2025년 11월 30일

Upstage AI Ambassador

목록 보기
6/7
post-thumbnail

Document Parse vs Information extract?

Document classification 기술을 설명하기 전에 먼저 핵심적으로 알아야할 2가지 기술을 이해하기 쉬운 예시를 들어 설명하겠다.

고객사에서 아래와 같은 요청이 있다고 가정해보자.

  1. “이 계약서에서 계약 금액을 추출해줘.”
  2. “이 계약서에서 위약금 조항을 찾아서 설명해줘.”

두 요청 모두 문서를 처리한다는 점에서는 동일하지만, 필요한 기술은 근본적으로 다르다. 서로 다른 팀 / 부서마다 발생하는 문제와 필요한 요구사항이 다르기 때문에 각각 상황에 부합하는 해결방안을 제시하는 것이 매우 중요하다.

첫 번째 요구사항에서 활용할 수 있는 기술:
Information Extraction,
두 번째 요구사항에서 사용할 수 있는 기술:
Document Understanding (Parse)

Document Parse는 Document를 HTML이나 Markdown과 같은 LLM이 읽을 수 있는 형식으로 변환하는 기술이고, Information Extract는 필요한 데이터만을 structured JSON 형태의 key–value 쌍으로 추출하는 기술이다.

여기서 "Structured outputs"의 장점을 부연 설명하자면, 이는 사용자가 제공한 JSON schema를 기반으로 JSON 형식의 결과를 생성하여 정보를 표준화된 방식으로 추출·정리할 수 있게 해주는 기능이다. 이를 통해 추출된 데이터는 기계가 읽기 쉽고, 다양한 애플리케이션과 시스템에 유연하게 연동할 수 있다.

아래 캡쳐 사진은 Upstage official tech-blog "Document parse vs Information extract: What's the difference?"을 주제로 작성된 포스팅 내용에서 참고한 비교분석 표이다.

Document Classification이란?

문서 분류는 입력된 문서를 사용자가 정의한 category 중 하나로 자동 분류하는 기술이다. 스캔된 이미지, 사진, digital PDF 등 형태에 관계없이 적용할 수 있으며, 템플릿이나 모델 fine-tuning없이 사용할 수 있다.

Advantages

  • 어떤 문서든 처리 가능: 스캔본, 사진, 디지털 문서 등 형식에 상관없이 높은 인식 성능 제공
  • 유연한 분류 체계: 도메인에 맞게 라벨을 자유롭게 정의하고 수정 가능
  • no fine-tuning: 템플릿이나 학습 과정 없이 즉시 배포 가능 운영 비용 절감
  • 일관된 운영: 문서 라우팅 및 자동화 분기 처리에 바로 적용 가능

Upstage model들은 playground에서 직접 사용해 볼 수 있다. Document classification기능을 체험해보기 위해 "Upstage Playground"에서 sample 자료들을 가지고 이 기술이 어떻게 활용될 수 있는지 실습해보겠다.

Upstage console에서 samples (US Tax & Income & Logistics) 문서들을 다운로드 받고 하단 우측의 "Classify all" 버튼을 클릭한다. 대용량의 문서를 업로드 한게 아니여서 짧은시간 안에 process가 마무리 되었다.

우측 Class description을 확인해보면 "label"(category)과 그에 해당하는 "description"이 matching되어 분류가 잘 된 모습을 확인할 수 있다. 해당 기술은 앞서 설명한 예시 이외에도 다양한 산업분야에 적용 가능하고 업무의 효율성을 극대화 할 수 있는 매우 우수한 솔루션이라고 생각한다.

Reference

https://console.upstage.ai/docs/capabilities/classify
https://console.upstage.ai/api/document-classification
https://www.upstage.ai/blog/en/difference-of-ie-and-dp
https://console.upstage.ai/docs/capabilities/generate/structured-outputs
https://json-schema.org/overview/what-is-jsonschema
https://www.upstage.ai/

profile
AI researcher

0개의 댓글