Digitize -> Classify(생략가능) -> Extract
*재학습 가능
-> 추출된 항목이 업무 요건에 부합하는지 검증하는 과정
-> 보조적으로 일치 여부 확률을 확인할 수 있음
전처리-Deskew
-> 문서가 틀어진 경우 똑바르게 돌려줌
https://forum.uipath.com/t/deskew-library-for-document-image-processing/531553
*참고자료
https://docs.uipath.com/document-understanding/automation-cloud/latest/user-guide/out-of-the-box-pre-trained-ml-packages
https://docs.uipath.com/document-understanding/automation-cloud/latest/user-guide/document-manager-use-a-predefined-schema
https://docs.uipath.com/document-understanding/automation-cloud/latest/user-guide/public-endpoints
https://ds920.minoh.kr/fsdownload/bugN4woCM/DU_enablement
Taxonomy Manager 사용
아이디명은 필드명을 변경해도 변경 불가
-> 변경 방법은 json 파일을 수정해야하는데, 권장하지 않음
Digitize Document Activity
[ Input 값 ]
⊙ Document Path : 분석 파일
⊙ ApplyOcrOnPdf : pdf파일이 이미 텍스트로 추출될 경우
No : 이미 있는 pdf 디지털 텍스트 가져오기
Yes : 디지털 텍스트가 있어도 OCR로 추출하여 가져오기
Auto : 디지털 텍스트 있는 건 디지털 텍스트로 하고, 이미지 같은 경우는 OCR로 읽어오기 -> 대부분의 경우 Auto 사용
⊙ DegreeOfParallelism :
-1 : 있는 코어를 하나빼고 다 사용하겠다. (Default)
1 : 있는 코어 하나만을 사용 (페이지 하나씩 읽어오겠다.)
[ Output 값 ]
⊙ document text : 문서의 전체 텍스트
⊙ document object model : 문서가 단위별로 분석되는데 단어별로 분석된 데이터
Configure Extractors > Machine Learning Extractor
즐겁게 읽었습니다. 유용한 정보 감사합니다.