[AI] STT와 평가 모델 비교 검증

한강섭·2025년 7월 17일

stt 모델 평가

학습 & 숙제

목록 보기

101/104

프로젝트에서 퀄리티 높은 STT구현과 평가를 필요로 한다 이 부분에서 어떠한 모델이 가능할지 비교해보고 우선순위를 나눠보겠습니다.

무료와 GMS토큰을 사용할 수 있는 모델 위주로 정리해보았습니다.

STT

Web Speech API ⭐⭐⭐

Google의 클라우드 음성 인식을 브라우저에서 무료로 사용 가능하다.

클라이언트 처리라 서버 부하 없고 완전 무료

실시간 스트리밍 처리로 즉시 피드백이 가능하고 한국어 인식률도 준수하다.

다만 브라우저 호환성(Chrome 위주)과 사용자별 일일 제한이 존재한다.

OpenAI Whisper API ⭐⭐

현재 가장 정확한 STT 모델로 99개 언어 지원, 한국어 인식률 최고 수준이다.

20만 크레딧으로 16,666세션 처리 가능 (세션당 12 크레딧)

배치 처리 방식이라 실시간은 불가하지만 정확도는 최고 수준이다.

잡음 제거와 전문 용어 인식이 뛰어나다.

Hugging Face Transformers ⭐⭐

Wav2Vec2, Whisper 등 다양한 오픈소스 모델을 무료로 사용할 수 있다.

완전 무료, 커스텀 모델 학습 가능

한국어 특화 모델들이 일부 있지만 정확도는 Whisper 대비 낮다.

개발자 친화적이지만 직접 구축해야 하는 부분이 많다.

총평

Whisper가 말한 후 2~4초 대기 시간이 발생한다.. 실시간 처리가 중요한 우리 서비스에 굉장히 치명적일 것 같다. Web Speech API는 실험한 것 처럼 정말 바로 텍스트가 나올 수 있다. 하지만 어느정도가 개개인의 브라우저 한계에 걸릴 지 몰라서 잘 모르겠다..