STT, TTS

김우경·2021년 9월 8일
0

API

목록 보기
1/3
post-thumbnail

STT(Speech-to-Text)
Google Cloud STT 사용

구글 Cloud Speech-to-Text의 경우 두가지 프로토콜로 음성인식 API를 이용할 수 있습니다.
첫번째로 녹음된 PCM wav 파일을 HTTP 프로토콜을 통해서 전송하고 결과를 수신하는 Rest API 방식과 gRPC라는 HTTP2기반의 RPC 프로토콜을 이용한 방법이 있습니다.
Rest API - 방식은 녹음이 완료된 파일을 전달하고 최종 결과를 받을수 있습니다.
gRPC - 방식은 녹음 파일을 전달하고 최종 결과를 받거나, PCM 데이터를 스트리밍으로 전송하고, 전송된 음성 데이터의 인식 결과를 스트리밍 텍스트로 받을 수 있습니다.
AI 스피커의 경우 녹음 시작점을 Hot-Word Detection으로 잡을 수 있으나, 음성의 끝점을 잡기가 어렵습니다.
(이를 위해서는 특별한 기술들이 필요합니다.) PCM 데이터를 스트리밍으로 전송하는 방법은 음성을 다 끝내면 끝점을 잡아서 종료해주는 듯 합니다.

  1. Credential 신청

구글 Cloud Speech-to-Text를 사용하기 위해서는 구글 Cloud Platform 개발자로 등록 해야 합니다.
등록 후 Speech API를 사용하기 위한 Credential을 신청해야 하는데요.
Credential 신청은 구글 개발자 콘솔에서 가능합니다.

각각의 새로운 Speech-to-Text 세션이 시작될 때 인증 프로세스를 진행할 때 GOOGLE_APPLICATION_CREDENTIALS 환경 변수가 이 파일로 지정해야 합니다. 이 단계는 Speech-to-Text에 대한 요청을 인증하는 필수 단계입니다. 키의 고유 ID는 서비스 계정 이름 옆에 표시됩니다.

https://cloud.google.com/speech-to-text/docs/before-you-begin?hl=ko

라이브러리
npm install --save @google-cloud/storage
npm install --save @google-cloud/speech
npm install --save node-record-lpcm16

0개의 댓글