Amazon Transcribe

엔스마트·2024년 6월 21일
post-thumbnail

1. Amazon Transcribe 이란?

기계 학습 모델을 사용하여 오디오를 텍스트로 변환하는 자동 음성 인식 서비스입니다. Amazon Transcribe를 독립 실행형 전사 서비스로 사용하거나 모든 애플리케이션에 음성-텍스트 변환 기능을 추가할 수 있습니다.


2. Amazon Transcribe 적용 사례> 오디오를 텍스트로 변환 시 개인 정보 보호 추가

AWS Management Console 또는 API를 통해 자동 콘텐츠 수정 기능을 사용할 수 있습니다. Amazon Transcribe의 자동 콘텐츠 편집 기능을 사용하여 트랜스크립션에 개인정보 보호를 추가할 수 있습니다.

1단계> Amazon S3에 오디오 파일 업로드

Amazon S3 버킷을 생성하고 텍스트 변환 오디오 파일 업로드

2단계> Amazon Transcribe 작업 생성 및 시작

이 단계에서는 Amazon Transcribe 콘솔에서 트랜스크립션 작업을 생성합니다. Amazon Transcribe의 자동 콘텐츠 수정 기능은 트랜스크립션 결과에서 민감한 개인 식별 정보(PII)를 자동으로 수정합니다. 이는 식별된 각 PII 인스턴스를 기록의 [PII] 태그로 대체합니다.

작업 세부 정보 지정 페이지 에서 다음을 지정합니다.

  • 작업 설정 이름 입력
  • 입력 데이터 섹션에 1단계의 S3 업로드 파일 선택
  • 출력 데이터 섹션에서 서비스 관리형 S3 버킷 선택
  • 작업 구성 페이지의 콘텐츠 제거에서 자동 콘텐츠 수정을 선택하고 '작업 출력에 편집되지 않은 트랜스크립트 포함' 선택
  • 작업 상태가 In Progress에서 Complete로 변경될 때까지 기다린 후, Job 선택

3단계> 개인 식별 정보가 PII로 대체된 부분 확인

작업 세부 정보 페이지의 트랜스크립션 미리 보기 섹션에서 Amazon Transcribe가 트랜스크립트의 모든 개인 식별 정보(PII)를 [PII]로 대체한 것을 확인할 수 있습니다.

4단계> 원본 텍스트와 비교해서 PII로 대체된 부분 확인

원본 텍스트에서 개인 정보로 식별된 부분과 비교 확인

  • 은행 계좌 번호, 카드 번호, 카드 만료일, CVV 번호 등

3. Amazon Transcribe 적용 사례> 자동 언어 식별

지원되는 여러 언어를 통해 음성 파일에서 자동으로 언어를 식별하여 텍스트로 변환해줍니다.

1단계> youtube-dl 도구를 사용하여 샘플 오디오 파일 다운로드 & S3 업로드

  • Amazon S3 버킷을 생성하고 텍스트 변환 오디오 파일을 업로드
    $ youtube-dl -f bestaudio https://www.youtube.com/watch?v=AFN5jaTurfA
    $ mv AWS\ \&\ EarthCube\ _\ Deep\ learning\ démarrer\ avec\ MXNet\ et\ Tensorflow\ en\ 10\ minutes-AFN5jaTurfA.m4a video.m4a
  • ffmpeg를 사용하여 오디오 클립을 1분 길이로 줄이기
    $ ffmpeg -i video.m4a -ss 00:00:00.00 -t 00:01:00.00 video-1mn.m4a
  • S3 버킷에 파일 업로드
    $ aws s3 cp video-1mn.m4a s3://your-bucket-name/

2단계> Amazon Transcribe 콘솔의 트랜스크립션 작업을 실행

3단계> 작업 결과를 통해 번역된 언어 확인


4. Amazon Transcribe 적용 사례> Amazon Transcribe Call Analytics

콜 센터에서 고객 대화의 감정, 추세 및 정책 준수 여부를 파악하여 고객 경험을 개선하고 중요한 피드백을 찾아낼 수 있도록 하는 기계 학습(ML) 기반 분석 기능을 제공합니다. API 직접 호출 한 번으로 고객 대화에서 내용, 풍부한 인사이트 및 요약 데이터를 추출할 수 있습니다.

1) 작동 방식

Amazon Transcribe Call Analytics는 에이전트와 감독자가 고객 대화를 요약할 수 있도록 콜 센터 상호 작용에 대한 간략한 요약을 생성하여 고객이 전화를 건 이유, 문제 해결 방법, 파악된 후속 조치 등의 주요 요소를 캡처합니다. 에이전트는 고객 응대를 완료한 후 대화를 요약할 필요가 없으므로, 바로 다음 고객을 도울 수 있어 고객 대기 시간이 단축되고 에이전트 생산성이 향상됩니다. 또한 감독자는 고객 문제를 조사할 때 전체 통화 녹음을 듣거나 대화 내용을 읽을 필요 없이, 요약을 검토하여 대화의 요점을 파악할 수 있습니다.

2) 이점

  • 단일 API 출력으로 모든 콜 센터 또는 영업 통화 애플리케이션에 빠르게 추가하여 구현 시간을 단축
  • ML에 대한 전문 지식 없이도 이러한 모델을 구축하고 훈련하고 유지 관리
  • 고객 서비스, 영업 등의 통화 애플리케이션에 이러한 기능을 유연하게 추가

3) 특징

  • 통화 요약을 자동으로 생성하여 에이전트가 우수한 고객 경험을 제공하는 데 집중할 수 있도록 돕고 통화 후 수동 요약을 줄여 생산성을 높임
  • 감독자가 잠재적인 고객 문제, 에이전트 코칭 기회, 제품 피드백, 통화 추세를 보다 손쉽게 파악
  • 대규모로 통화를 모니터링하여 회사 정책 또는 규제 요건을 준수하는지 여부를 추적
  • 이름, 주소, 신용카드 번호, 주민등록번호 같은 고객의 민감한 데이터가 포함된 대화 내용을 식별하고 수정
profile
클라우드 전환, MSA 서비스, DevOps 환경 구축과 기술지원 그리고 엔터프라이즈 시스템을 구축하는 최고 실력과 경험을 가진 Architect Group 입니다.

0개의 댓글