UiPath Document Understanding 교육

초이·2023년 8월 10일
0

RPA

목록 보기
2/5

* DU 문서 처리 과정

Digitize -> Classify(생략가능) -> Extract
*재학습 가능

* Classify 종류

  1. Keyword Classifier
  • 키워드를 사람이 선정
  • 여러개의 키워드를 복합적으로 사용 가능
  1. Intelligent Keyword Classifier
  • 키워드를 자동으로 선정
  • 문서 분리 가능 -> 한 파일 내에 여러 문서들이 들어있을 경우 구분해서 잘라주는 기능
  1. Machine Learning Classifier
  • Machine Learning 방식으로 학습
  • 추가 재학습 가능

* Extract (추출) 종류

  1. Rule-based
  • RegEx-Based Extractor
  • Form Extractor (기본적으로 위치 기반/ 보조적으로 주변 앵커 기능 가능)
  1. AI-based
  • Forms AI (적게는 2-3장 많게는 20-30)
  • Machine Learing Extractor
  1. Hybrid approach
  • A combination of both ― based and AI-based extractors

Field Rules Validation

-> 추출된 항목이 업무 요건에 부합하는지 검증하는 과정

  • Mandatory(필수 항목)
  • Regex
  • 정해진 값보다 크다/ 작다
  • Net+Tax =Total
  • 미리 정해진 값 중에서만 가능(ex: Currency Code in KRW, USD, EUR)
  • External data source lookup

Confidence

-> 보조적으로 일치 여부 확률을 확인할 수 있음

ML 모델 학습에 필요한 "최소" 문서 수량

  • 일반 항목 하나 당 50건
  • 테이블 컬럼 하나 당 200건
    *평가용 문서와 학습용은 별도로 준비 (평가용 문서 20-50건)

전처리-Deskew
-> 문서가 틀어진 경우 똑바르게 돌려줌
https://forum.uipath.com/t/deskew-library-for-document-image-processing/531553

*참고자료
https://docs.uipath.com/document-understanding/automation-cloud/latest/user-guide/out-of-the-box-pre-trained-ml-packages
https://docs.uipath.com/document-understanding/automation-cloud/latest/user-guide/document-manager-use-a-predefined-schema
https://docs.uipath.com/document-understanding/automation-cloud/latest/user-guide/public-endpoints
https://ds920.minoh.kr/fsdownload/bugN4woCM/DU_enablement


  • Taxonomy Manager 사용
    아이디명은 필드명을 변경해도 변경 불가
    -> 변경 방법은 json 파일을 수정해야하는데, 권장하지 않음

  • Digitize Document Activity
    [ Input 값 ]
    ⊙ Document Path : 분석 파일
    ⊙ ApplyOcrOnPdf : pdf파일이 이미 텍스트로 추출될 경우

  • No : 이미 있는 pdf 디지털 텍스트 가져오기

  • Yes : 디지털 텍스트가 있어도 OCR로 추출하여 가져오기

  • Auto : 디지털 텍스트 있는 건 디지털 텍스트로 하고, 이미지 같은 경우는 OCR로 읽어오기 -> 대부분의 경우 Auto 사용
    ⊙ DegreeOfParallelism :

  • -1 : 있는 코어를 하나빼고 다 사용하겠다. (Default)

  • 1 : 있는 코어 하나만을 사용 (페이지 하나씩 읽어오겠다.)

[ Output 값 ]
⊙ document text : 문서의 전체 텍스트
⊙ document object model : 문서가 단위별로 분석되는데 단어별로 분석된 데이터

  • Data Extraction Scope Activity
    하이브리드로 사용 가능 (여러 Extractor 사용) -> 사용한만큼 Unit이 차감되기 때문에 사용 빈도 수는 낮을 것으로 예상됨
    각각 항목들을 어떤 방식으로 추출할 지 설정 가능
    ex) Receipt의 name 항목은 Form Extractor로 가져오고, phone 항목은 ML로 가져올 수 있음
    단, 같은 항목을 둘 다 체크될 경우 왼쪽에 있는 순서대로 먼저 수행해보고 안되면 우측에 있는 방식으로 진행

Configure Extractors > Machine Learning Extractor

profile
MacBook이 갖고싶은 살암

1개의 댓글

comment-user-thumbnail
2023년 8월 10일

즐겁게 읽었습니다. 유용한 정보 감사합니다.

답글 달기