STT API 비교

N’oublie pas de t’aimer·2025년 4월 20일

DIVE

목록 보기
6/10

음성 인식 API 성능 비교

참고 자료: https://github.com/rtzr/Awesome-Korean-Speech-Recognition?tab=readme-ov-file

한국어는 조사를 사용하고 다른 언어와 비교하여 형태소의 구조가 복잡하며, 단어와 단어 사이의 경계가 모호하다. 이로 인해 단어 수준에서의 평가가 어렵다. 따라서 문자 단위의 오류를 측정하는 CER(Character Error Rate)이 한국어 음성인식에서 더 정확한 평가 방법으로 간주된다.

아래 표는 각 음성인식 API의 CER 측정 결과이다.

숫자가 작을수록 에러가 적다.

API \ 데이터셋Avg. CER(%)주요 영역별 회의회의상담저음질전화망한국어강의KsponSpeech eval cleanKsponSpeech eval other
OpenAI Whisper11.3910.4910.167.5117.2710.8912.0611.34
Google api v211.50N/A11.628.3714.1111.4811.8211.59
ETRI10.199.9510.568.3615.469.899.997.15
Naver ClovaSpeech9.527.888.535.899.0913.7110.6610.86
리턴제로6.186.787.273.564.667.766.616.64
리턴제로 Whisper26.596.848.334.14.267.117.787.73

리턴제로 API가 한국어 음성 인식에 있어서 오류가 가장 적다.

음성 인식 API 요금 비교

이름가격
Whisper분당 $0.006( 약 0.88원). 무료(Free) 요금제: 1분에 최대 3개 요청(RPM), 하루에 최대 200개 요청(RPD). Tier 1: 1분에 최대 500개 요청 가능, Tier 2: 1분에 최대 2,500개 요청 가능, Tier 3: 1분에 최대 5,000개 요청 가능, Tier 4: 1분에 최대 7,500개 요청 가능, Tier 5: 1분에 최대 10,000개 요청 가능
Google Speech-to-Text0 ~ 500,000분: 분당 $0.016, 500,000 ~ 1,000,000분: 분당 $0.01, 1,000,000분~2,000,000분: 분당 $0.008, 2,000,000분 이상: 분당 $0.004
한국전자통신연구원 ETRI의 공공 인공지능오픈 API1,000건/일(최대 20초/건당)
CLOVA SpeechFree 플랜: 20분 무료 제공, 이후 15초당 5원
리턴제로 VITO Speech1,000원 / 시간(Batch), 1,000원 / 시간(Streaming)
Amazon Transcribe프리티어: 12개월 동안 매월 60분 무료

에러율은 한 문자만 틀려도 많이 증가하기 때문에 API 별 에러율의 차이는 크게 의미가 있지 않을 것이라고 판단했고, 어차피 추출한 텍스트를 Claude API에 전송할 것이기 때문에 맥락상 오타도 융통성있게 이해할 것 같아서 현재 AWS 프리티어를 쓰고 있기 때문에 Amazon Transcribe를 사용하기로 결정했다.

profile
매일 1퍼센트씩 나아지기 ୧(﹒︠ ̫ ̫̊ ̫﹒︡)୨

0개의 댓글