2025.03.19
STT (Speech-to-Text)
기술
오프라인 STT (로컬)
- 인터넷 없이 오프라인에서 음성 인식을 실행해야 하는 경우
- 개인 정보 보호가 중요한 경우 (예:의료데이터)
- 빠른 응답 속도가 필요한 경우
- Vosk / DeepSpeech / Whisper(OpenAI)
클라우드 STT
- 최신 AI 모델을 활용하여 높은 정확도를 원할 때
- 연산 성능이 낮은 기기(일반 PC, 스마트폰)에서도 STT를 사용해야 할때
- 와이파이 or 모바일 데이터 필요
⇒ 우리는 스마트폰 어플이고 오프라인 환경 제공까진 필요 없으니까 클라우드 환경 STT를 사용하면 될듯
STT 서비스
- Open AI Whisper API : 실시간 처리 X / 높은 정확도 / 속도 느림 (비동기 처리)
⇒ X (실시간)
- AWS Transcribe : 실시간 처리 X / 비즈니스용 최적화 / 가격이 비쌈
⇒ X (실시간)
- Google Cloud STT : 실시간 처리 O / 높은 정확도 / 다소 높은 가격 / 발음 점수 제공 O (무료 사용량 월 60분)
⇒ X (발음 피드백 X)
⇒ X (높은 가격, 커스텀)
- Microsoft Azure STT : 실시간 처리 O / 높은 정확도, 커스텀 학습 O / 높은 가격, 설정이 복잡 / 발음 평가 기능 O (무료 사용량 월 5시간)
- Deepgram : 실시간 처리 O / 비용 저렴 / 인식률이 Google에 비해 다소 떨어질 수 있음, 유명하지 않음 / 발음 점수 기능 X (무료 사용량 월 200분)
⇒ X (발음 평가 기능)
⇒ 실시간 처리, 발음 피드백 가능한 걸로 Microsoft Azure STT가 제일 적합해보임 (구글은 발음에 대한 점수만 제공하고 피드백은 제공하지 않음)
ESLA Speak -
Microsoft Azure STT
- Azure for Students를 구독하면 한정된 기능으로 무료로 이용할 수 있음.
- 제한 없이 이용 가능한 $100 크레딧 제공
- 가입 후 12개월간 사용 가능
- 학교 이메일로 가입 가능
발음 평가 기능
- 단어별 발음 정확도 점수 (0~1.0)
- 문장 전체 발음 점수
- 음소 단위 분석
- 강세, 억양, 리듬 평가
환경 구축
- Python : 3.6 이상
- 지속적 인터넷 연결 필요
- Azure 포탈에서 Speech 서비스 리소스를 생성 → API 키와 엔드포인트 발급 받기
금액
Azure for Students (학생 할인)
- $100 크레딧 제공 (12개월 동안 사용)
- 월 5시간 무료 사용량 (STT 및 발음 평가 기능 포함)
일반 가격
- 약 $1.0~$1.50 per hour
- 발음 평가 관련 서비스는 별도 요금 부과
사용 방법
1. API 사용 방법
- 클라이언트 - 음성 녹음 -> Azure STT API로 전송
- API로부터 응답받은 텍스트 및 발음 피드백을 클라이언트에 출력
2. 서버 환경