# stt

오픈AI가 공개한 다국어 음성 인식 시스템 whisper
모델 아키텍쳐는 encoder-decdoer 변환기로 구현되는 간단한 end-to-end 접근 방식

Glow-TTS 한국어로 학습하기 2편
앞 내용이 궁금하신 분들은,,,Glow-tts 코드리뷰 1편을 보고 오시면 됩니다.!최대한 비슷하게 따라가며 흐름을 파악할 것발생한 에러들cuda 전용 pytorch 버전 충돌 문제smart-g2p 사용 시, 01012345678과 같은 핸드폰 번호를 제대로 읽지 못하

[iOS] speech to text by Speech
🤓 들어가며 text를 speech로 옮기는 일은 생각보다 간단했다. '그런데 speech를 text로 바꾸는 것은 어떻게 하지? MLKit 이라도 사용해야 하나?' 라는 걱정. MLKit까지 사용할 필요는 없을 것 같고 SFSpeechRecognizer면 충분!

영어 발음사전 프로젝트 1편
본 글은 영어 발음 평가 모델 및 음성인식 모델에 사용하는 영어 발음사전을 구축하기 위한 과정을 담고 있습니다. [Posted by Jaewon Kim, Research Engineer, Mediazen AI Edtech team]

python - google STT 정확도 테스트
Google STT를 이용하면서 일부 무료로 사용할 수 있어 감사하게 쓰고 있으면서도 한 편으로는 낮은 정확도와 소수점 첫째 자리까지밖에 지원하지 않는 Timestamp값에 불편함을 감수하고 사용하고 있기도 합니다. 그렇기에 어떻게 하면 더 정확도를 높일 수 있을지
딥러닝 기반 음성인식 기초
오디오 신호에서 발생하는 이벤트 종류를 찾는 문제아기의 웃음 소리나 기타 소리가 동시에 있는 소리는 즉시 인식전기 톱 소리와 믹서기 소리는 유사해 인식하기 어려움여러 이벤트를 tagging하는 multi-label classificationIR(Information R

(꼼수 가득한) 생애 최초 앱 개발기
때는 2021년 6월. 안드로이드 어플 개발을 이어 받으라는 특명이 떨어졌다. 연유는 이랬다. 사용자와 상담을 진행하는 어플을, 모 통신사의 TTS(Text To Sound), STT(Sound To Text) 라이브러리를 이용해 개발하는 프로젝트였는데, 앱 개발
한국어 음성인식 회고
ClovaCall: Korean Goal-Oriented Dialog Speech Corpus for Automatic Speech Recognition of Contact Centers (Interspeech 2020)https://github.com/clo