[speaker diarization] basics

Willow·2024년 2월 27일

SPEECH PROCESSING

목록 보기

11/13

최신 기술

SOTA 모델들도 대부분 비동기 분할만 지원하고 있다 (실시간은 아마 RNN-T?)

성능

성능에 방해되는 요인
1. 15초 이하의 발화: 15초 이하의 경우, 모델이 UNK로 분류하거나 발화량이 많은 화자로 통합시킬 수 있다
2. 오버랩/끼어들기: 특히 오버랩될 경우 새로운 spk로 배정될 수 있음
3. 주변 노이즈
4. 짧은 발화: "네", "그렇죠" 등 발화가 매우 짧을 때 구분이 어려움 → 이와 같이 음향적 특징이 두드러지지 않을 때 언어적 특징을 사용할 수 있음
  참고논문:
  1. Language modelling for speaker diarization in telephonic interviews(2022): merging acoustic and linguistic modeling
  2. DiarizationLM(2024): post-processing for speaker diarization results using prompt builder/completion parser
이상적인 환경
1. 도합 30초 이상의 (주변에서 끼어들지 않고 깨끗한) 발화
2. 주고받는 게 명확한 대화

Speech Processing/AI/Linguistics/CS/etc.

이전 포스트

microphones

다음 포스트

Google STT + Langchain

0개의 댓글