음성인식 STT 조사

Zolyer·2022년 8월 27일

final project

목록 보기

1/1

음성 인식 Speech To Text

목표

유튜브 영상의 소리를 텍스트화 하기

방법

1. API 활용

speech-recognition, NAVER CLOVA, AIQ, ...
장점 : 구현이 쉬움
단점 : 대부분 유료, 인식률의 한계
- 유료의 경우도 뉴스 보도 정도의 정확한 발음이 들어가야 인식률 95~97%
- 유튜브에 활용한다면 실질적으로 열글자에 하나 이상의 문제가 생긴다고 봐야..

2. 오픈소스 툴, 모델 이용하여 직접 구현

kospeech, Zeroth-kaldi, ...
장점 : 목적 맞춤형 구현이 가능.. 할지도..?
단점 : 어려움, 불확실성, 시간 및 자원 (데이터 수집, 구현, 학습, ...)

구현 예시

Speech-recognition을 이용한 예시 코드
https://colab.research.google.com/drive/1uQB4OZLTUHGcebxZ_K-vRNjl11y_JMhq?usp=sharing

speech-recognition 이용
네이버 clova speech Demo 이용

고찰

유튜브 특성상 방대하고 다양한 영상들이 존재하기에 현실적으로 한계가 있을 것으로 예상
ex) 야외촬영, 외국인, ...
직접 구현 하더라도 인식률이 좋을 수 있을지 미지수
텍스트를 추출한 후 활용하기위한 후처리 작업을 통해 어느정도 보완은 가능할수도..

더 조사를 해볼 필요가 있겠으나 뉴스 보도와 같은 인식률이 좋을만한 영상으로 대상을 제한하거나
자막이 존재하는 영상(+ 이미지 처리를 통한 변환이 가능한 영상)으로 대상을 압축해서 TTS 만들기에 집중..?

참고자료

speech-recognition 구현 영상
https://youtu.be/WZt2_-S261g

kospeech 개발자 설명 영상
https://www.youtube.com/watch?v=OglqDo44zpQ

NAVER CLOVA Speech
https://clova.ai/speech

외국인 발화 한국어 STT github
https://github.com/alsrb0607/KoreanSTT

외국인 발화 한국어 STT 개발자 설명글
https://velog.io/@letgodchan0/%EC%9D%8C%EC%84%B1%EC%9D%B8%EC%8B%9D-%ED%95%9C%EA%B5%AD%EC%96%B4-STT-1

0개의 댓글