train.log
로그인
train.log
로그인
[speaker diarization] basics
Willow
·
2024년 2월 27일
팔로우
0
개인공부
0
SPEECH PROCESSING
목록 보기
11/13
최신 기술
SOTA 모델들도 대부분 비동기 분할만 지원하고 있다 (실시간은 아마 RNN-T?)
성능
성능에 방해되는 요인
15초 이하의 발화: 15초 이하의 경우, 모델이 UNK로 분류하거나 발화량이 많은 화자로 통합시킬 수 있다
오버랩/끼어들기: 특히 오버랩될 경우 새로운 spk로 배정될 수 있음
주변 노이즈
짧은 발화: "네", "그렇죠" 등 발화가 매우 짧을 때 구분이 어려움 → 이와 같이 음향적 특징이 두드러지지 않을 때 언어적 특징을 사용할 수 있음
이상적인 환경
도합 30초 이상의 (주변에서 끼어들지 않고 깨끗한) 발화
주고받는 게 명확한 대화
Willow
Speech Processing/AI/Linguistics/CS/etc.
팔로우
이전 포스트
microphones
다음 포스트
Google STT + Langchain
0개의 댓글
댓글 작성