Amazon Textract는 스캔한 문서에서 텍스트와 데이터를 자동으로 추출하는 완전 관리형 머신 러닝 서비스로, 단순한 광학 문자 인식(OCR)을 넘어 양식과 표에서 데이터를 식별, 이해 및 추출합니다.
문서 분석 선택

문서에서 원시 텍스트 추출
a. 문서 분석 화면에서 '원시 텍스트' 선택하여 내장된 샘플 문서에서 원시 텍스트(OCR) 출력을 추출

b. 단어별 세그먼트를 선택하여 문서에서 추출된 단어를 표시

c. 결과 화면에서 단어를 선택하면 왼쪽 창의 샘플 문서에서 강조로 표시

샘플 문서에서 양식 데이터 추출
a. 양식을 선택하여 문서에서 키-값 출력을 추출
b. 키-값을 선택하면 외쪽 창에서 강조 표시 확인

샘플 문서에서 테이블 데이터 추출
a. 문서 분석 화면의 오른쪽 창에서 테이블을 선택하여 샘플 문서에서 테이블 출력을 추출
b. 해당 쉘에서 컬럼을 선택하면 왼쪽 창의 샘플 문서에서 강조로 표시

결과 다운로드
a. '결과 다운로드' 통해서 zip 파일 다운로드

b. zip 파일 압축 해제

c. 원시 JSON, 텍스트, 양식 및 CSV 파일을 통해서 추출된 데이터를 결과 확인 가능

Textract는 A2I(Augmented AI)와 통합되어 있으므로 문서에서 추출한 텍스트에 대한 사람이 검토하는 작업을 쉽게 구현 가능
작업 팀 생성
a. SageMaker 콘솔에서 Ground Truth 선택 후 레이블링 인력 지정
b. 프라이빗 선택 후 프라이빗 팀 만들기

c. 이메일로 새 작업자 초대하여 내용을 입력 후 프라이빗 팀 만들기

d. invite 이메일 확인

e. 초대 URL 접속해서 생성된 ID/PW로 로그인

f. 로그인된 화면 확인

인적 검토 워크플로 생성
a. 증강 AI에서 인적 검토 워크플로 선택하여 'Create human review workflow' 선택

b. 필요한 정보 작성


예를 들어, 사람이 Full name:(와)과 같은 특정 키 및 관련 입력-값을 검토하도록 하려면 Full name: 키가 감지될 때 또는 해당 키에 대한 추론 신뢰도가 지정한 범위에 속할 때 인적 검토를 시작하는 활성화 조건을 생성할 수 있습니다.
▶ 양식 키 확신 점수를 기반으로 특정 양식 키에 대한 인적 검토를 시작합니다.
▶ 특정 양식 키가 누락될 때 인적 검토를 시작합니다.
▶ Amazon Textract에서 확신 점수가 지정된 범위에 속하는 것으로 식별된 모든 양식 키에 대한 인적 검토를 시작합니다.
▶ 검토를 위해 인적 작업자에게 무작위로 양식 샘플을 보냅니다.
- 금융 서비스
다양한 재무 형식에서 모기지 요율, 신청자 이름, 인보이스 합계와 같은 중요한 비즈니스 데이터를 정확하게 추출하여 대출 및 모기지 신청을 몇 분 안에 처리
- 의료 및 생명 과학
환자 등록서, 보험 청구서 및 사전 승인서에서 중요한 환자 데이터를 추출하여 환자와 보험사에 더 나은 서비스를 제공할 수 있습니다. 데이터를 원래의 컨텍스트로 구성하고 수동으로 출력을 검토할 필요 없음
- 공공 부문
소규모 비즈니스 대출, 세금 양식 또는 비즈니스 신청서와 같은 정부 관련 양식에서 높은 정확도로 관련 데이터를 손쉽게 추출