참고 자료: https://github.com/rtzr/Awesome-Korean-Speech-Recognition?tab=readme-ov-file
한국어는 조사를 사용하고 다른 언어와 비교하여 형태소의 구조가 복잡하며, 단어와 단어 사이의 경계가 모호하다. 이로 인해 단어 수준에서의 평가가 어렵다. 따라서 문자 단위의 오류를 측정하는 CER(Character Error Rate)이 한국어 음성인식에서 더 정확한 평가 방법으로 간주된다.
아래 표는 각 음성인식 API의 CER 측정 결과이다.
숫자가 작을수록 에러가 적다.
| API \ 데이터셋 | Avg. CER(%) | 주요 영역별 회의 | 회의 | 상담 | 저음질전화망 | 한국어강의 | KsponSpeech eval clean | KsponSpeech eval other |
|---|---|---|---|---|---|---|---|---|
| OpenAI Whisper | 11.39 | 10.49 | 10.16 | 7.51 | 17.27 | 10.89 | 12.06 | 11.34 |
| Google api v2 | 11.50 | N/A | 11.62 | 8.37 | 14.11 | 11.48 | 11.82 | 11.59 |
| ETRI | 10.19 | 9.95 | 10.56 | 8.36 | 15.46 | 9.89 | 9.99 | 7.15 |
| Naver ClovaSpeech | 9.52 | 7.88 | 8.53 | 5.89 | 9.09 | 13.71 | 10.66 | 10.86 |
| 리턴제로 | 6.18 | 6.78 | 7.27 | 3.56 | 4.66 | 7.76 | 6.61 | 6.64 |
| 리턴제로 Whisper2 | 6.59 | 6.84 | 8.33 | 4.1 | 4.26 | 7.11 | 7.78 | 7.73 |
리턴제로 API가 한국어 음성 인식에 있어서 오류가 가장 적다.
| 이름 | 가격 |
|---|---|
| Whisper | 분당 $0.006( 약 0.88원). 무료(Free) 요금제: 1분에 최대 3개 요청(RPM), 하루에 최대 200개 요청(RPD). Tier 1: 1분에 최대 500개 요청 가능, Tier 2: 1분에 최대 2,500개 요청 가능, Tier 3: 1분에 최대 5,000개 요청 가능, Tier 4: 1분에 최대 7,500개 요청 가능, Tier 5: 1분에 최대 10,000개 요청 가능 |
| Google Speech-to-Text | 0 ~ 500,000분: 분당 $0.016, 500,000 ~ 1,000,000분: 분당 $0.01, 1,000,000분~2,000,000분: 분당 $0.008, 2,000,000분 이상: 분당 $0.004 |
| 한국전자통신연구원 ETRI의 공공 인공지능오픈 API | 1,000건/일(최대 20초/건당) |
| CLOVA Speech | Free 플랜: 20분 무료 제공, 이후 15초당 5원 |
| 리턴제로 VITO Speech | 1,000원 / 시간(Batch), 1,000원 / 시간(Streaming) |
| Amazon Transcribe | 프리티어: 12개월 동안 매월 60분 무료 |
에러율은 한 문자만 틀려도 많이 증가하기 때문에 API 별 에러율의 차이는 크게 의미가 있지 않을 것이라고 판단했고, 어차피 추출한 텍스트를 Claude API에 전송할 것이기 때문에 맥락상 오타도 융통성있게 이해할 것 같아서 현재 AWS 프리티어를 쓰고 있기 때문에 Amazon Transcribe를 사용하기로 결정했다.