# ASR
ASR 모델 및 Wav2Vec 파인 튜닝 코드 스크랩
1\. 텐서플로 공식 문서1\. Wav2Vec2.0_Base_No finetuning 모델을 훈련 가능한 사전학습 레이어로 추가(input-w2v-dense_layer 로 구축)2\. 데이터는 librispeech의 train_clean 332M, 손실함수로는 CTCl
ESPNET 개요
ESPNET은 resnet, vggnet 과 같은 모델 아키텍쳐가 아닌 음성 인식을 위한 라이브러리(툴킷)으로, 음성 인식 데이터를 다루는 모듈이 들어있다.전처리 모듈(kaldi) : 아래 설명하는 전처리음성 인식 모델(ASR : Automatic sppech rec

Pororo ASR(Auto Speech Recognition) 설치를 위한 고군분투기
conda install pytorch==1.6.0 torchvision==0.7.0 cudatoolkit=10.1 -c pytorch 설치 시 오류PyTorch 공식 홈페이지에서 이전 버전 설치 메뉴얼에서 pytorch 1.6.0 버전을 찾아 실행설치가 중간에 멈추고
Conformer 모델 리뷰
① 정확한 음성 인식을 위하여 음성 인식 알고리즘 중 높은 정확도와 성능을 보이는 Conformer(2020년 5월 발표) 알고리즘을 적용 (표. )Conformer는 SOTA 성능을 보여준 Transformer와 CNN 기반의 모델들보다 훨씬 뛰어난 성능을 가져옴.

오픈AI가 공개한 다국어 음성 인식 시스템 whisper
모델 아키텍쳐는 encoder-decdoer 변환기로 구현되는 간단한 end-to-end 접근 방식

Glow-TTS 한국어로 학습하기 4편
앞 내용이 궁금하신 분들은,,,Glow-tts 코드리뷰 3편을 보고 오시면 됩니다.!MultiHeadAttention → LayerNorm → FFN → LayerNormDropout → Conv1d → LayerNorm → Conv1d → LayerNorm → Con

Glow-TTS 한국어로 학습하기 3편
앞 내용이 궁금하신 분들은,,,Glow-tts 코드리뷰 2편을 보고 오시면 됩니다.!batch size : 16x.shape : torch.Size(16, 115)batch size 16개, text token 최대 길이 115115 길이에 맞추고 그보다 작은 데이터

Glow-TTS 한국어로 학습하기 2편
앞 내용이 궁금하신 분들은,,,Glow-tts 코드리뷰 1편을 보고 오시면 됩니다.!최대한 비슷하게 따라가며 흐름을 파악할 것발생한 에러들cuda 전용 pytorch 버전 충돌 문제smart-g2p 사용 시, 01012345678과 같은 핸드폰 번호를 제대로 읽지 못하
Hifi-gan 논문 리뷰
음성인식은 두 단계로 이루어져 있음Text → Mel-spectrogramMel-spectrogram → waveformvocoder는 두 번째 단계를 실행함Auto-Regressive Generative model - WaveNet학습과 추론 시간이 오래 걸림Flow

영어 발음사전 프로젝트 1편
본 글은 영어 발음 평가 모델 및 음성인식 모델에 사용하는 영어 발음사전을 구축하기 위한 과정을 담고 있습니다. [Posted by Jaewon Kim, Research Engineer, Mediazen AI Edtech team]
DeepSpeech: Scaling up end-to-end speech recognition 리뷰
기존 acoustic 모델은 waveform에서 feature extraction후AM(acoustic model), PM(pronunciation model), LM(language model)을 이용해서 Text를 만드는 방식이었다. 이때 AM, PM, LM은 분리