유튜브 영상의 소리를 텍스트화 하기
speech-recognition 이용
네이버 clova speech Demo 이용
유튜브 특성상 방대하고 다양한 영상들이 존재하기에 현실적으로 한계가 있을 것으로 예상
ex) 야외촬영, 외국인, ...
직접 구현 하더라도 인식률이 좋을 수 있을지 미지수
텍스트를 추출한 후 활용하기위한 후처리 작업을 통해 어느정도 보완은 가능할수도..
더 조사를 해볼 필요가 있겠으나 뉴스 보도와 같은 인식률이 좋을만한 영상으로 대상을 제한하거나
자막이 존재하는 영상(+ 이미지 처리를 통한 변환이 가능한 영상)으로 대상을 압축해서 TTS 만들기에 집중..?
speech-recognition 구현 영상
https://youtu.be/WZt2_-S261g
kospeech 개발자 설명 영상
https://www.youtube.com/watch?v=OglqDo44zpQ
NAVER CLOVA Speech
https://clova.ai/speech
외국인 발화 한국어 STT github
https://github.com/alsrb0607/KoreanSTT
외국인 발화 한국어 STT 개발자 설명글
https://velog.io/@letgodchan0/%EC%9D%8C%EC%84%B1%EC%9D%B8%EC%8B%9D-%ED%95%9C%EA%B5%AD%EC%96%B4-STT-1