speech recognition에서 좋은 성능을 보이기 위해 많은 데이터가 필요하지만 labeled 데이터가 부족한 상황. 결국 general representation을 학습하고 downstream task를 잘 수행하는게 중요하기 때문에 unlabeled 데이터로 pretrain하는 방법을 제시한다.
vision , NLP에서 unsupervised learning model이 downstream task에서 높은 성능을 보여주었다. speech에서도 unsupervised learning을 적용한 게 있었지만 , 이것이 speech recognition에 적용되지는 않았다.
wav2vec은 unlabeled 데이터 가지고 unsupervised learning을 할 수 있는 방법이다. contrastive learning을 통해 treu audio와 negative를 구분하게 하고 , rnn과 달리 convolutional을 통해 parallelized 될 수 있다.
이는 input으로 audio signal이 들어가는 end to end 모델이며 , ASR task에 관해 sota를 찍었다.
raw audio data를 그대로 넣어서 convolution 하는데 왜 이렇게 하는가?
MFCC를 안넣고? 그래도 되는가?