[캡스톤] STT 자료조사

정수현·2025년 3월 20일

캡스톤

목록 보기
3/8

2025.03.19

STT (Speech-to-Text)

  • 음성을 텍스트로 변환하는 기술 (음성 인식)

기술

오프라인 STT (로컬)

  • 인터넷 없이 오프라인에서 음성 인식을 실행해야 하는 경우
  • 개인 정보 보호가 중요한 경우 (예:의료데이터)
  • 빠른 응답 속도가 필요한 경우
  • Vosk / DeepSpeech / Whisper(OpenAI)

클라우드 STT

  • 최신 AI 모델을 활용하여 높은 정확도를 원할 때
  • 연산 성능이 낮은 기기(일반 PC, 스마트폰)에서도 STT를 사용해야 할때
  • 와이파이 or 모바일 데이터 필요

⇒ 우리는 스마트폰 어플이고 오프라인 환경 제공까진 필요 없으니까 클라우드 환경 STT를 사용하면 될듯

STT 서비스

  1. Open AI Whisper API : 실시간 처리 X / 높은 정확도 / 속도 느림 (비동기 처리)
    ⇒ X (실시간)
  2. AWS Transcribe : 실시간 처리 X / 비즈니스용 최적화 / 가격이 비쌈
    ⇒ X (실시간)
  3. Google Cloud STT : 실시간 처리 O / 높은 정확도 / 다소 높은 가격 / 발음 점수 제공 O (무료 사용량 월 60분)
    ⇒ X (발음 피드백 X)
    ⇒ X (높은 가격, 커스텀)
  4. Microsoft Azure STT : 실시간 처리 O / 높은 정확도, 커스텀 학습 O / 높은 가격, 설정이 복잡 / 발음 평가 기능 O (무료 사용량 월 5시간)
  5. Deepgram : 실시간 처리 O / 비용 저렴 / 인식률이 Google에 비해 다소 떨어질 수 있음, 유명하지 않음 / 발음 점수 기능 X (무료 사용량 월 200분)
    ⇒ X (발음 평가 기능)

⇒ 실시간 처리, 발음 피드백 가능한 걸로 Microsoft Azure STT가 제일 적합해보임 (구글은 발음에 대한 점수만 제공하고 피드백은 제공하지 않음)

ESLA Speak -

Microsoft Azure STT

  • Azure for Students를 구독하면 한정된 기능으로 무료로 이용할 수 있음.
  • 제한 없이 이용 가능한 $100 크레딧 제공
  • 가입 후 12개월간 사용 가능
  • 학교 이메일로 가입 가능

발음 평가 기능

  • 단어별 발음 정확도 점수 (0~1.0)
  • 문장 전체 발음 점수
  • 음소 단위 분석
  • 강세, 억양, 리듬 평가

환경 구축

  • Python : 3.6 이상
  • 지속적 인터넷 연결 필요
  • Azure 포탈에서 Speech 서비스 리소스를 생성 → API 키와 엔드포인트 발급 받기

금액

Azure for Students (학생 할인)

  • $100 크레딧 제공 (12개월 동안 사용)
  • 월 5시간 무료 사용량 (STT 및 발음 평가 기능 포함)

일반 가격

  • 약 $1.0~$1.50 per hour
  • 발음 평가 관련 서비스는 별도 요금 부과

사용 방법

1. API 사용 방법

  • 클라이언트 - 음성 녹음 -> Azure STT API로 전송
  • API로부터 응답받은 텍스트 및 발음 피드백을 클라이언트에 출력

2. 서버 환경

0개의 댓글