최근 dnn-hmm 모델이 asr에 적용되는데 우리 모델은 speaker의 특징을 학습한다. listener는 filter bank를 input으로 받아서 attention과 rnn을 기반으로 character 씩 생성한다. character 단위에 독립 가정이 없는데 , 이는 큰 성능 향상의 비법이다.
최근 DNN 발전하면서 ASR 적용되고 있는데 기존의 acounstic model은 LM,음운 등 따로 학습됐다. 그런데 최근 end to end 방식으로 학습하는 두가지 방식이 있는데 CTC, seq to seq이다. 이 두개는 한계가 있는데 CTC는 character가 모두 독립하다는 가정이고 , seq2seq는 ASR에는 적용된 적이 없다는 것이다.
character 끼리가 독립적이지 않다는 가정 하에 seq2seq으로 encoder로 listener , decoder로 speller에 attention 추가한 seq2seq 모델을 제안한다.
여러 층으로 쌓아서 attention이 볼 위치도 적고 , character 단위로 나와서 OOV도 안나온다.
실험 결과 attention과 깊은 layer가 성능 향상에 큰 몫을 한다
overfitting이 되기도 해서 이를 방지하기 위해 sampling trick을 사용한다.