STT API 비교

N’oublie pas de t’aimer·2025년 4월 20일

DIVE

목록 보기

6/10

음성 인식 API 성능 비교

참고 자료: https://github.com/rtzr/Awesome-Korean-Speech-Recognition?tab=readme-ov-file

한국어는 조사를 사용하고 다른 언어와 비교하여 형태소의 구조가 복잡하며, 단어와 단어 사이의 경계가 모호하다. 이로 인해 단어 수준에서의 평가가 어렵다. 따라서 문자 단위의 오류를 측정하는 CER(Character Error Rate)이 한국어 음성인식에서 더 정확한 평가 방법으로 간주된다.

아래 표는 각 음성인식 API의 CER 측정 결과이다.

숫자가 작을수록 에러가 적다.

API \ 데이터셋	Avg. CER(%)	주요 영역별 회의	회의	상담	저음질전화망	한국어강의	KsponSpeech eval clean	KsponSpeech eval other
OpenAI Whisper	11.39	10.49	10.16	7.51	17.27	10.89	12.06	11.34
Google api v2	11.50	N/A	11.62	8.37	14.11	11.48	11.82	11.59
ETRI	10.19	9.95	10.56	8.36	15.46	9.89	9.99	7.15
Naver ClovaSpeech	9.52	7.88	8.53	5.89	9.09	13.71	10.66	10.86
리턴제로	6.18	6.78	7.27	3.56	4.66	7.76	6.61	6.64
리턴제로 Whisper2	6.59	6.84	8.33	4.1	4.26	7.11	7.78	7.73

리턴제로 API가 한국어 음성 인식에 있어서 오류가 가장 적다.

음성 인식 API 요금 비교

이름	가격
Whisper	분당 $0.006( 약 0.88원). 무료(Free) 요금제: 1분에 최대 3개 요청(RPM), 하루에 최대 200개 요청(RPD). Tier 1: 1분에 최대 500개 요청 가능, Tier 2: 1분에 최대 2,500개 요청 가능, Tier 3: 1분에 최대 5,000개 요청 가능, Tier 4: 1분에 최대 7,500개 요청 가능, Tier 5: 1분에 최대 10,000개 요청 가능
Google Speech-to-Text	0 ~ 500,000분: 분당 $0.016, 500,000 ~ 1,000,000분: 분당 $0.01, 1,000,000분~2,000,000분: 분당 $0.008, 2,000,000분 이상: 분당 $0.004
한국전자통신연구원 ETRI의 공공 인공지능오픈 API	1,000건/일(최대 20초/건당)
CLOVA Speech	Free 플랜: 20분 무료 제공, 이후 15초당 5원
리턴제로 VITO Speech	1,000원 / 시간(Batch), 1,000원 / 시간(Streaming)
Amazon Transcribe	프리티어: 12개월 동안 매월 60분 무료

에러율은 한 문자만 틀려도 많이 증가하기 때문에 API 별 에러율의 차이는 크게 의미가 있지 않을 것이라고 판단했고, 어차피 추출한 텍스트를 Claude API에 전송할 것이기 때문에 맥락상 오타도 융통성있게 이해할 것 같아서 현재 AWS 프리티어를 쓰고 있기 때문에 Amazon Transcribe를 사용하기로 결정했다.

N’oublie pas de t’aimer

매일 1퍼센트씩 나아지기 ୧(﹒︠ ̫ ̫̊ ̫﹒︡)୨

이전 포스트

알림 기능 구현하기

다음 포스트

STT API 비교

DIVE

음성 인식 API 성능 비교

음성 인식 API 요금 비교

알림 기능 구현하기

영상 작업 시간을 어떻게 줄일 것인가?

0개의 댓글