[ASR Study] # Paper. Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin

fla1512·2024년 2월 28일

ASR Study

목록 보기

12/14

English or Mandarin Chinese 이해에 end-to-end 딥러닝 방법 쓰는 것의 효율성을 입증함

그 방법이 뉴럴네트워크로 hand-engineered components의 전체 파이프라인을 대체하기에 end-to-end learning을 통해 시끄러운 환경에서 나는 소리를 포함한 다양한 소리를 다루는것이 가능함

방법에서 가장 주요한 점은 HPC 기술의 적용으로 이를 통해, 몇 주가 걸리던 실험을 몇 일 단위로 줄일 수 있게 됨

이를 통해 더 우수한 아키텍처랑 알고리즘을 더 빨리 알아차릴 수 있게 됨

결론적으로 몇 경우에서 해당 시스템은 기존의 데이터셋에서 벤치마크 했을 때 경쟁력 있음

또한 batch dispatch with GPUs라는 기술을 data center에 활용해서 온라인 환경에서 우리의 세스템이 비싸지 않음을 보엿고, delivering
low latency when serving users at scale.

delivering
low latency when serving users at scale?

hand-engineered domain knowledge는 ASR 파이프라인의 수십년간 SOTA이었음

ASR model을 end-to-end로 훈련하는 간단하지만 강력한 대안책이 있었기 때문임.

이렇게 훈련을 end to end로 하면, 훈련 과정을 단순화할 수 있음 -> 엔지니어링 때 원래 필요로 하는 다음 단계들이 생략 가능해서(bootstrapping/alignment/clustering/HMM machinery)

그런 시스템에서 end-to-end 딥러닝 기반에서 본 논문은 엄청난 양의 딥러닝 기술을 적용할 수 있게 됨: 많은 훈련 데이터 포착하기, 더 큰모델 훈련해서 좋은 성능 내기, 방법론적으로 뉴럴네트워크 아키텍처 탐색하기

본 논문은 모델 아키텍처/훈련데이터(라벨링된)/계산 스케일에 대한 contribution을 자세히 서술함

해당 시스템을 여러 test set에 벤치마크햇음, 사람 수준의 성능을 얻기 위해서

그래서 비교를 위해 각 벤치마크에 대해서 crowd workers와 비교 햇음
본 연구에서 제시한 Mandarin Chinese speech system는기존의 speaker보다 short voice-query like utterence를 잘 묘사함

batch normalization을 한 이유는?

3.2의 SortaGrad?

사용한 데이터는?

CTC-loss에서 blank가 필요한 이유?