# ASR

15개의 포스트

ASR 모델 및 Wav2Vec 파인 튜닝 코드 스크랩

1\. 텐서플로 공식 문서1\. Wav2Vec2.0_Base_No finetuning 모델을 훈련 가능한 사전학습 레이어로 추가(input-w2v-dense_layer 로 구축)2\. 데이터는 librispeech의 train_clean 332M, 손실함수로는 CTCl

2023년 5월 31일
·
0개의 댓글
·

ESPNET 개요

ESPNET은 resnet, vggnet 과 같은 모델 아키텍쳐가 아닌 음성 인식을 위한 라이브러리(툴킷)으로, 음성 인식 데이터를 다루는 모듈이 들어있다.전처리 모듈(kaldi) : 아래 설명하는 전처리음성 인식 모델(ASR : Automatic sppech rec

2023년 5월 30일
·
0개의 댓글
·

CustomDataset for Audio Dataset

CustomDataset 코드

2023년 3월 31일
·
0개의 댓글
·

wav2vec2CTC model Korean Dataset 성능 향상 Solution

korean ASR

2023년 3월 25일
·
0개의 댓글
·

[코드 분석]run_ctc.py

CTC 코드 분석

2023년 3월 15일
·
0개의 댓글
·

wav2vec2.0

CTC 논문리뷰

2023년 3월 11일
·
0개의 댓글
·
post-thumbnail

Pororo ASR(Auto Speech Recognition) 설치를 위한 고군분투기

conda install pytorch==1.6.0 torchvision==0.7.0 cudatoolkit=10.1 -c pytorch 설치 시 오류PyTorch 공식 홈페이지에서 이전 버전 설치 메뉴얼에서 pytorch 1.6.0 버전을 찾아 실행설치가 중간에 멈추고

2023년 2월 9일
·
0개의 댓글
·

Conformer 모델 리뷰

① 정확한 음성 인식을 위하여 음성 인식 알고리즘 중 높은 정확도와 성능을 보이는 Conformer(2020년 5월 발표) 알고리즘을 적용 (표. )Conformer는 SOTA 성능을 보여준 Transformer와 CNN 기반의 모델들보다 훨씬 뛰어난 성능을 가져옴.

2023년 1월 19일
·
0개의 댓글
·
post-thumbnail

오픈AI가 공개한 다국어 음성 인식 시스템 whisper

모델 아키텍쳐는 encoder-decdoer 변환기로 구현되는 간단한 end-to-end 접근 방식

2022년 12월 27일
·
0개의 댓글
·
post-thumbnail

Glow-TTS 한국어로 학습하기 4편

앞 내용이 궁금하신 분들은,,,Glow-tts 코드리뷰 3편을 보고 오시면 됩니다.!MultiHeadAttention → LayerNorm → FFN → LayerNormDropout → Conv1d → LayerNorm → Conv1d → LayerNorm → Con

2022년 12월 13일
·
0개의 댓글
·
post-thumbnail

Glow-TTS 한국어로 학습하기 3편

앞 내용이 궁금하신 분들은,,,Glow-tts 코드리뷰 2편을 보고 오시면 됩니다.!batch size : 16x.shape : torch.Size(16, 115)batch size 16개, text token 최대 길이 115115 길이에 맞추고 그보다 작은 데이터

2022년 12월 13일
·
0개의 댓글
·
post-thumbnail

Glow-TTS 한국어로 학습하기 2편

앞 내용이 궁금하신 분들은,,,Glow-tts 코드리뷰 1편을 보고 오시면 됩니다.!최대한 비슷하게 따라가며 흐름을 파악할 것발생한 에러들cuda 전용 pytorch 버전 충돌 문제smart-g2p 사용 시, 01012345678과 같은 핸드폰 번호를 제대로 읽지 못하

2022년 12월 9일
·
0개의 댓글
·

Hifi-gan 논문 리뷰

음성인식은 두 단계로 이루어져 있음Text → Mel-spectrogramMel-spectrogram → waveformvocoder는 두 번째 단계를 실행함Auto-Regressive Generative model - WaveNet학습과 추론 시간이 오래 걸림Flow

2022년 11월 25일
·
0개의 댓글
·
post-thumbnail

영어 발음사전 프로젝트 1편

본 글은 영어 발음 평가 모델 및 음성인식 모델에 사용하는 영어 발음사전을 구축하기 위한 과정을 담고 있습니다. [Posted by Jaewon Kim, Research Engineer, Mediazen AI Edtech team]

2022년 7월 22일
·
0개의 댓글
·

DeepSpeech: Scaling up end-to-end speech recognition 리뷰

기존 acoustic 모델은 waveform에서 feature extraction후AM(acoustic model), PM(pronunciation model), LM(language model)을 이용해서 Text를 만드는 방식이었다. 이때 AM, PM, LM은 분리

2022년 1월 2일
·
0개의 댓글
·