hyunku.log
로그인
hyunku.log
로그인
[Speech] ASR의 다양한 Task들 소개
강현구
·
2024년 8월 2일
팔로우
0
speech
Speech
목록 보기
2/4
ASR Processing Task
이전 포스팅에서, 크게 ASR(=STT), TTS 두 분야가 있다고 언급하였고, 단어에 대한 정의를 하였음.
https://velog.io/@hyunku/Speech-Speech-Processing-%EC%86%8C%EA%B0%9C
본 포스팅에서는, ASR 관련하여 세부적으로 어떤 Task들이 있는지 살펴볼 예정
Speech Task
크게 Speaker Recognition Task, ASR Task로 구분되며, 이 두 분야가 합쳐진 Speaker Diarization Task가 존재한다.
Speaker Identification
화자 인식 Task
Sample 의 Speech가 누구의 Speech인지 구분하는 Task
e.g) 10명의 화자로 훈련후, 이게 누구의 말인지 분류
Speaker Verification
화자 식별 Task
누가 말했는지는 중요하지 않고, Target 화자인지 아닌지 구분하는 Task
ASR(=STT)
Seqence to Seqence 기반의 Sequence 예측 Task
Speaker Diarization
화자 분리 Task
Speaker Recognition + ASR 를 결합한 Task
Speech가 주어질 때, 어떤 사람이 어떤 말을 했는지 Text로 보이게끔 Diarization
e.g) 사람 1: 안녕 내 이름은 강현구야.
강현구
고려대학교 인공지능학과 SLP Lab 석사과정생
팔로우
이전 포스트
[Paper Review] X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION
다음 포스트
[Paper Review] A Review of Speaker Diarization: Recent Advances with Deep Learning
0개의 댓글
댓글 작성