
1. Amazon Transcribe 이란?
기계 학습 모델을 사용하여 오디오를 텍스트로 변환하는 자동 음성 인식 서비스입니다. Amazon Transcribe를 독립 실행형 전사 서비스로 사용하거나 모든 애플리케이션에 음성-텍스트 변환 기능을 추가할 수 있습니다.
2. Amazon Transcribe 적용 사례> 오디오를 텍스트로 변환 시 개인 정보 보호 추가
AWS Management Console 또는 API를 통해 자동 콘텐츠 수정 기능을 사용할 수 있습니다. Amazon Transcribe의 자동 콘텐츠 편집 기능을 사용하여 트랜스크립션에 개인정보 보호를 추가할 수 있습니다.

1단계> Amazon S3에 오디오 파일 업로드
Amazon S3 버킷을 생성하고 텍스트 변환 오디오 파일 업로드
2단계> Amazon Transcribe 작업 생성 및 시작
이 단계에서는 Amazon Transcribe 콘솔에서 트랜스크립션 작업을 생성합니다. Amazon Transcribe의 자동 콘텐츠 수정 기능은 트랜스크립션 결과에서 민감한 개인 식별 정보(PII)를 자동으로 수정합니다. 이는 식별된 각 PII 인스턴스를 기록의 [PII] 태그로 대체합니다.
작업 세부 정보 지정 페이지 에서 다음을 지정합니다.
- 작업 설정 이름 입력
- 입력 데이터 섹션에 1단계의 S3 업로드 파일 선택
- 출력 데이터 섹션에서 서비스 관리형 S3 버킷 선택
- 작업 구성 페이지의 콘텐츠 제거에서 자동 콘텐츠 수정을 선택하고 '작업 출력에 편집되지 않은 트랜스크립트 포함' 선택
- 작업 상태가 In Progress에서 Complete로 변경될 때까지 기다린 후, Job 선택
3단계> 개인 식별 정보가 PII로 대체된 부분 확인
작업 세부 정보 페이지의 트랜스크립션 미리 보기 섹션에서 Amazon Transcribe가 트랜스크립트의 모든 개인 식별 정보(PII)를 [PII]로 대체한 것을 확인할 수 있습니다.
4단계> 원본 텍스트와 비교해서 PII로 대체된 부분 확인
원본 텍스트에서 개인 정보로 식별된 부분과 비교 확인
- 은행 계좌 번호, 카드 번호, 카드 만료일, CVV 번호 등
3. Amazon Transcribe 적용 사례> 자동 언어 식별
지원되는 여러 언어를 통해 음성 파일에서 자동으로 언어를 식별하여 텍스트로 변환해줍니다.
1단계> youtube-dl 도구를 사용하여 샘플 오디오 파일 다운로드 & S3 업로드
- Amazon S3 버킷을 생성하고 텍스트 변환 오디오 파일을 업로드
$ youtube-dl -f bestaudio https://www.youtube.com/watch?v=AFN5jaTurfA
$ mv AWS\ \&\ EarthCube\ _\ Deep\ learning\ démarrer\ avec\ MXNet\ et\ Tensorflow\ en\ 10\ minutes-AFN5jaTurfA.m4a video.m4a- ffmpeg를 사용하여 오디오 클립을 1분 길이로 줄이기
$ ffmpeg -i video.m4a -ss 00:00:00.00 -t 00:01:00.00 video-1mn.m4a- S3 버킷에 파일 업로드
$ aws s3 cp video-1mn.m4a s3://your-bucket-name/
2단계> Amazon Transcribe 콘솔의 트랜스크립션 작업을 실행

3단계> 작업 결과를 통해 번역된 언어 확인


4. Amazon Transcribe 적용 사례> Amazon Transcribe Call Analytics
콜 센터에서 고객 대화의 감정, 추세 및 정책 준수 여부를 파악하여 고객 경험을 개선하고 중요한 피드백을 찾아낼 수 있도록 하는 기계 학습(ML) 기반 분석 기능을 제공합니다. API 직접 호출 한 번으로 고객 대화에서 내용, 풍부한 인사이트 및 요약 데이터를 추출할 수 있습니다.
1) 작동 방식
Amazon Transcribe Call Analytics는 에이전트와 감독자가 고객 대화를 요약할 수 있도록 콜 센터 상호 작용에 대한 간략한 요약을 생성하여 고객이 전화를 건 이유, 문제 해결 방법, 파악된 후속 조치 등의 주요 요소를 캡처합니다. 에이전트는 고객 응대를 완료한 후 대화를 요약할 필요가 없으므로, 바로 다음 고객을 도울 수 있어 고객 대기 시간이 단축되고 에이전트 생산성이 향상됩니다. 또한 감독자는 고객 문제를 조사할 때 전체 통화 녹음을 듣거나 대화 내용을 읽을 필요 없이, 요약을 검토하여 대화의 요점을 파악할 수 있습니다.
2) 이점
- 단일 API 출력으로 모든 콜 센터 또는 영업 통화 애플리케이션에 빠르게 추가하여 구현 시간을 단축
- ML에 대한 전문 지식 없이도 이러한 모델을 구축하고 훈련하고 유지 관리
- 고객 서비스, 영업 등의 통화 애플리케이션에 이러한 기능을 유연하게 추가
3) 특징
- 통화 요약을 자동으로 생성하여 에이전트가 우수한 고객 경험을 제공하는 데 집중할 수 있도록 돕고 통화 후 수동 요약을 줄여 생산성을 높임
- 감독자가 잠재적인 고객 문제, 에이전트 코칭 기회, 제품 피드백, 통화 추세를 보다 손쉽게 파악
- 대규모로 통화를 모니터링하여 회사 정책 또는 규제 요건을 준수하는지 여부를 추적
- 이름, 주소, 신용카드 번호, 주민등록번호 같은 고객의 민감한 데이터가 포함된 대화 내용을 식별하고 수정