[Speech] ASR의 다양한 Task들 소개

강현구·2024년 8월 2일

Speech

목록 보기

2/4

ASR Processing Task

이전 포스팅에서, 크게 ASR(=STT), TTS 두 분야가 있다고 언급하였고, 단어에 대한 정의를 하였음.
https://velog.io/@hyunku/Speech-Speech-Processing-%EC%86%8C%EA%B0%9C
본 포스팅에서는, ASR 관련하여 세부적으로 어떤 Task들이 있는지 살펴볼 예정

Speech Task

크게 Speaker Recognition Task, ASR Task로 구분되며, 이 두 분야가 합쳐진 Speaker Diarization Task가 존재한다.

Speaker Identification

화자 인식 Task
Sample 의 Speech가 누구의 Speech인지 구분하는 Task
e.g) 10명의 화자로 훈련후, 이게 누구의 말인지 분류

Speaker Verification

화자 식별 Task
누가 말했는지는 중요하지 않고, Target 화자인지 아닌지 구분하는 Task

ASR(=STT)

Seqence to Seqence 기반의 Sequence 예측 Task

Speaker Diarization

화자 분리 Task
Speaker Recognition + ASR 를 결합한 Task
Speech가 주어질 때, 어떤 사람이 어떤 말을 했는지 Text로 보이게끔 Diarization
e.g) 사람 1: 안녕 내 이름은 강현구야.

고려대학교 인공지능학과 SLP Lab 석사과정생

이전 포스트

[Paper Review] X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION

다음 포스트

[Paper Review] A Review of Speaker Diarization: Recent Advances with Deep Learning

0개의 댓글