시리즈

SPEECH PROCESSING

1.[기본] 오디오 형식을 변환하는 다양한 방법들

간단한 오디오 라이브러리 소개

2022년 12월 14일

2.[기본] Transformers - Tokenizer

예전에 적어놓은 메모들 정리하기

2022년 12월 15일

3.모르는 언어가 훈련대상일 때 사전조사하기

모르는 언어 학습시키기 (feat. 일본어)

2022년 12월 16일

4.[datasets] 300G 넘는 오디오 파일들 빠르게 로딩하기

load_from_disk가 너무 느릴 때

2023년 1월 26일

5.[기본] Transformer - Trainer 조금이라도 빠르게 만들기 위한 변수

시간이 항상 부족하다..

2023년 1월 27일

6.[Kaldi] 오류들 간단 해결

칼디 오류들 발생할 때마다 추가 예정...

2023년 4월 24일

7.[speaker verification] basics

speaker verification 공부

2024년 1월 16일

8.[SV] Exploring wav2vec 2.0 on speaker verification and language identification

2020년의 대히트작 wav2vec2.0을 sv, lid에 적용한 논문

2024년 1월 16일

9.[SV] VoxCeleb: a large-scale speaker identification dataset

화자인증 벤치마크 데이터셋으로 VoxCeleb1, 2가 많이 쓰이는데, 그 중 1에 대한 논문

2024년 1월 16일

10.microphones

개인공부

2024년 2월 13일

11.[speaker diarization] basics

화자 분할 논문들 참고

2024년 2월 27일

12.Google STT + Langchain

로컬,스트리밍,랭체인

2024년 4월 29일

13.Google TTS

STT보다 훨씬 코드가 간단하다.

2024년 4월 29일