AWS Textract

엔스마트·2024년 7월 5일
post-thumbnail

Amazon Textract이란

Amazon Textract는 스캔한 문서에서 텍스트와 데이터를 자동으로 추출하는 완전 관리형 머신 러닝 서비스로, 단순한 광학 문자 인식(OCR)을 넘어 양식과 표에서 데이터를 식별, 이해 및 추출합니다.


텍스트 및 구조화된 데이터 추출 방법

  1. 문서 분석 선택

  2. 문서에서 원시 텍스트 추출
    a. 문서 분석 화면에서 '원시 텍스트' 선택하여 내장된 샘플 문서에서 원시 텍스트(OCR) 출력을 추출

    b. 단어별 세그먼트를 선택하여 문서에서 추출된 단어를 표시

    c. 결과 화면에서 단어를 선택하면 왼쪽 창의 샘플 문서에서 강조로 표시

  3. 샘플 문서에서 양식 데이터 추출
    a. 양식을 선택하여 문서에서 키-값 출력을 추출
    b. 키-값을 선택하면 외쪽 창에서 강조 표시 확인

  4. 샘플 문서에서 테이블 데이터 추출
    a. 문서 분석 화면의 오른쪽 창에서 테이블을 선택하여 샘플 문서에서 테이블 출력을 추출
    b. 해당 쉘에서 컬럼을 선택하면 왼쪽 창의 샘플 문서에서 강조로 표시

  5. 결과 다운로드
    a. '결과 다운로드' 통해서 zip 파일 다운로드

    b. zip 파일 압축 해제

    c. 원시 JSON, 텍스트, 양식 및 CSV 파일을 통해서 추출된 데이터를 결과 확인 가능


SageMaker를 활용한 인간 검토 사례

Textract는 A2I(Augmented AI)와 통합되어 있으므로 문서에서 추출한 텍스트에 대한 사람이 검토하는 작업을 쉽게 구현 가능

  1. 작업 팀 생성
    a. SageMaker 콘솔에서 Ground Truth 선택 후 레이블링 인력 지정
    b. 프라이빗 선택 후 프라이빗 팀 만들기

    c. 이메일로 새 작업자 초대하여 내용을 입력 후 프라이빗 팀 만들기

    d. invite 이메일 확인

    e. 초대 URL 접속해서 생성된 ID/PW로 로그인

    f. 로그인된 화면 확인

  2. 인적 검토 워크플로 생성
    a. 증강 AI에서 인적 검토 워크플로 선택하여 'Create human review workflow' 선택

    b. 필요한 정보 작성

  • Name: 이름 작성
  • S3 Bucket: A2I에서 인적 검토 작업의 결과를 저장할 Bucket 선택
  • IAM role: 이 역할을 사용해서 액세스할 수 있도록 role 지정
  • Task type: Key-value paire 선택
  • 키 신뢰도 점수나 특정 양식 키가 누락된 경우 특정 양식 키에 대한 인적 검토 트리거를 위해 선택 (0 and 99)
  • Textract에서 식별된 모든 양식 키에 대한 인적 검토 트리거를 위해 선택 (0 and 90)
    Textract가 99보다 작은 신뢰 점수를 반환하는 경우 사람의 검토가 트리거됨
  • Worker task template creation에서 신규 템플릿 선택해서 이름 작성
  • Workers에서 Private 선택, 비공개팀으로 선택, 생성(Create) 선택

    c. 인간 검토 워크플로우가 생성되면 테이블 확인 가능
    ARN 주소를 통해서 활용
  1. 예시

    예를 들어, 사람이 Full name:(와)과 같은 특정 키 및 관련 입력-값을 검토하도록 하려면 Full name: 키가 감지될 때 또는 해당 키에 대한 추론 신뢰도가 지정한 범위에 속할 때 인적 검토를 시작하는 활성화 조건을 생성할 수 있습니다.

    ▶ 양식 키 확신 점수를 기반으로 특정 양식 키에 대한 인적 검토를 시작합니다.
    ▶ 특정 양식 키가 누락될 때 인적 검토를 시작합니다.
    ▶ Amazon Textract에서 확신 점수가 지정된 범위에 속하는 것으로 식별된 모든 양식 키에 대한 인적 검토를 시작합니다.
    ▶ 검토를 위해 인적 작업자에게 무작위로 양식 샘플을 보냅니다.


사용 사례

  1. 금융 서비스
    다양한 재무 형식에서 모기지 요율, 신청자 이름, 인보이스 합계와 같은 중요한 비즈니스 데이터를 정확하게 추출하여 대출 및 모기지 신청을 몇 분 안에 처리

  2. 의료 및 생명 과학
    환자 등록서, 보험 청구서 및 사전 승인서에서 중요한 환자 데이터를 추출하여 환자와 보험사에 더 나은 서비스를 제공할 수 있습니다. 데이터를 원래의 컨텍스트로 구성하고 수동으로 출력을 검토할 필요 없음

  3. 공공 부문
    소규모 비즈니스 대출, 세금 양식 또는 비즈니스 신청서와 같은 정부 관련 양식에서 높은 정확도로 관련 데이터를 손쉽게 추출
profile
클라우드 전환, MSA 서비스, DevOps 환경 구축과 기술지원 그리고 엔터프라이즈 시스템을 구축하는 최고 실력과 경험을 가진 Architect Group 입니다.

0개의 댓글