UiPath Document Understanding 교육

초이·2023년 8월 10일

OCR UIPath du rpa

0

RPA

목록 보기

2/5

* DU 문서 처리 과정

Digitize -> Classify(생략가능) -> Extract
*재학습 가능

* Classify 종류

Keyword Classifier

키워드를 사람이 선정
여러개의 키워드를 복합적으로 사용 가능

Intelligent Keyword Classifier

키워드를 자동으로 선정
문서 분리 가능 -> 한 파일 내에 여러 문서들이 들어있을 경우 구분해서 잘라주는 기능

Machine Learning Classifier

Machine Learning 방식으로 학습
추가 재학습 가능

* Extract (추출) 종류

Rule-based

RegEx-Based Extractor
Form Extractor (기본적으로 위치 기반/ 보조적으로 주변 앵커 기능 가능)

AI-based

Forms AI (적게는 2-3장 많게는 20-30)
Machine Learing Extractor

Hybrid approach

A combination of both ― based and AI-based extractors

Field Rules Validation

-> 추출된 항목이 업무 요건에 부합하는지 검증하는 과정

Mandatory(필수 항목)
Regex
정해진 값보다 크다/ 작다
Net+Tax =Total
미리 정해진 값 중에서만 가능(ex: Currency Code in KRW, USD, EUR)
External data source lookup

Confidence

-> 보조적으로 일치 여부 확률을 확인할 수 있음

ML 모델 학습에 필요한 "최소" 문서 수량

일반 항목 하나 당 50건
테이블 컬럼 하나 당 200건
*평가용 문서와 학습용은 별도로 준비 (평가용 문서 20-50건)

전처리-Deskew
-> 문서가 틀어진 경우 똑바르게 돌려줌
https://forum.uipath.com/t/deskew-library-for-document-image-processing/531553

*참고자료
https://docs.uipath.com/document-understanding/automation-cloud/latest/user-guide/out-of-the-box-pre-trained-ml-packages
https://docs.uipath.com/document-understanding/automation-cloud/latest/user-guide/document-manager-use-a-predefined-schema
https://docs.uipath.com/document-understanding/automation-cloud/latest/user-guide/public-endpoints
https://ds920.minoh.kr/fsdownload/bugN4woCM/DU_enablement

Taxonomy Manager 사용
아이디명은 필드명을 변경해도 변경 불가
-> 변경 방법은 json 파일을 수정해야하는데, 권장하지 않음
Digitize Document Activity
[ Input 값 ]
⊙ Document Path : 분석 파일
⊙ ApplyOcrOnPdf : pdf파일이 이미 텍스트로 추출될 경우
No : 이미 있는 pdf 디지털 텍스트 가져오기
Yes : 디지털 텍스트가 있어도 OCR로 추출하여 가져오기
Auto : 디지털 텍스트 있는 건 디지털 텍스트로 하고, 이미지 같은 경우는 OCR로 읽어오기 -> 대부분의 경우 Auto 사용
⊙ DegreeOfParallelism :
-1 : 있는 코어를 하나빼고 다 사용하겠다. (Default)
1 : 있는 코어 하나만을 사용 (페이지 하나씩 읽어오겠다.)

[ Output 값 ]
⊙ document text : 문서의 전체 텍스트
⊙ document object model : 문서가 단위별로 분석되는데 단어별로 분석된 데이터

Data Extraction Scope Activity
하이브리드로 사용 가능 (여러 Extractor 사용) -> 사용한만큼 Unit이 차감되기 때문에 사용 빈도 수는 낮을 것으로 예상됨
각각 항목들을 어떤 방식으로 추출할 지 설정 가능
ex) Receipt의 name 항목은 Form Extractor로 가져오고, phone 항목은 ML로 가져올 수 있음
단, 같은 항목을 둘 다 체크될 경우 왼쪽에 있는 순서대로 먼저 수행해보고 안되면 우측에 있는 방식으로 진행

Configure Extractors > Machine Learning Extractor

MacBook이 갖고싶은 살암

이전 포스트

RPA란?

다음 포스트

UiPath Orchestrator Storage Buckets 절대경로 수정

1개의 댓글

2023년 8월 10일

즐겁게 읽었습니다. 유용한 정보 감사합니다.

답글 달기

관련 채용 정보