[AI] STT와 평가 모델 비교 검증

한강섭·2025년 7월 17일
2

학습 & 숙제

목록 보기
101/102
post-thumbnail

프로젝트에서 퀄리티 높은 STT구현과 평가를 필요로 한다 이 부분에서 어떠한 모델이 가능할지 비교해보고 우선순위를 나눠보겠습니다.

무료와 GMS토큰을 사용할 수 있는 모델 위주로 정리해보았습니다.


STT

Web Speech API ⭐⭐⭐

Google의 클라우드 음성 인식을 브라우저에서 무료로 사용 가능하다.

클라이언트 처리라 서버 부하 없고 완전 무료

실시간 스트리밍 처리로 즉시 피드백이 가능하고 한국어 인식률도 준수하다.

다만 브라우저 호환성(Chrome 위주)과 사용자별 일일 제한이 존재한다.

OpenAI Whisper API ⭐⭐

현재 가장 정확한 STT 모델로 99개 언어 지원, 한국어 인식률 최고 수준이다.

20만 크레딧으로 16,666세션 처리 가능 (세션당 12 크레딧)

배치 처리 방식이라 실시간은 불가하지만 정확도는 최고 수준이다.

잡음 제거와 전문 용어 인식이 뛰어나다.

Hugging Face Transformers ⭐⭐

Wav2Vec2, Whisper 등 다양한 오픈소스 모델을 무료로 사용할 수 있다.

완전 무료, 커스텀 모델 학습 가능

한국어 특화 모델들이 일부 있지만 정확도는 Whisper 대비 낮다.

개발자 친화적이지만 직접 구축해야 하는 부분이 많다.

총평

Whisper가 말한 후 2~4초 대기 시간이 발생한다.. 실시간 처리가 중요한 우리 서비스에 굉장히 치명적일 것 같다. Web Speech API는 실험한 것 처럼 정말 바로 텍스트가 나올 수 있다. 하지만 어느정도가 개개인의 브라우저 한계에 걸릴 지 몰라서 잘 모르겠다..


공백 평가 (무료만)

Web Audio API ⭐⭐⭐

Web Audio API를 통해 실시간 볼륨 감지를 한 후 알고리즘을 직접 구현해서 즉시 피드백 가능

클라이언트 처리라 서버 부하가 없고 무료

실시간 분석을 하려면 좋은 선택일 듯

WebRTC VAD ⭐⭐⭐

Google이 제공한 오픈소스이고 무료에 가장 정확한 VAD를 제공한다.

메모리도 매우 적고 API 호출이 없는 로컬 라이브러리라 서버 비용만 생각하면 된다. (CPU)

pyannote.audio VAD ⭐⭐

정확한 음성/무음 구간 타임스탬프가 결과로 나온다.

최신 딥러닝 기반 VAD를 무료로 사용가능하다. (라이선스 MIT)

오프라인에서 기능을 할 수 있다는 장점 + 고정밀 (GPU 권장..)

총평

실시간 피드백 (연습 모드) 같은 경우에는 Web Audio API를 통해 가볍게 빠른 피드백을 통해 평가를 내리고, 끝난 음성에서 정밀 분석이 필요한 경우에는 WebRTC VAD를 사용해서 정확한 분석을 하면 좋을 것 같음!

profile
기록하고 공유하는 개발자

4개의 댓글

comment-user-thumbnail
2025년 7월 18일

AI말고 다른것도 해주세요

1개의 답글
comment-user-thumbnail
2025년 7월 18일

STT 맛있네요 STS는 없나요?

1개의 답글