[speaker diarization] basics

Willow·2024년 2월 27일
0

SPEECH PROCESSING

목록 보기
11/13
  1. 최신 기술
  • SOTA 모델들도 대부분 비동기 분할만 지원하고 있다 (실시간은 아마 RNN-T?)
  1. 성능
  • 성능에 방해되는 요인
    1. 15초 이하의 발화: 15초 이하의 경우, 모델이 UNK로 분류하거나 발화량이 많은 화자로 통합시킬 수 있다
    2. 오버랩/끼어들기: 특히 오버랩될 경우 새로운 spk로 배정될 수 있음
    3. 주변 노이즈
    4. 짧은 발화: "네", "그렇죠" 등 발화가 매우 짧을 때 구분이 어려움 → 이와 같이 음향적 특징이 두드러지지 않을 때 언어적 특징을 사용할 수 있음
  • 이상적인 환경
    1. 도합 30초 이상의 (주변에서 끼어들지 않고 깨끗한) 발화
    2. 주고받는 게 명확한 대화
profile
Speech Processing/AI/Linguistics/CS/etc.

0개의 댓글