paper: https://arxiv.org/pdf/1904.05862.pdf
code: https://github.com/facebookresearch/fairseq
참고 blog: https://asidefine.tistory.com/240
Challenge:
데이터 부족
Goal:
label없는 raw audio로 unsupervised pre-training (최초의 시도인가?! 엄청나군!)
Approach:
Result:
Contribution
wav2vec1.0 - 2.0의 차이는?
기존에 contrastive predictive coding:
바로 다음 sequence랑 가깝게 하는걸로! generative 같은것처럼 비슷한 맥락이군?
기존 공유벡터에서는 cnn, rnn => cnn, cnn으로 바꿨다.
커널을 10씩 옮겨가면서 / 커널의 기준을 뭐로 했지???? raw의 하나하나???
공유벡터랑 특징벡터의 차이가 뭔가요??
wav2vec:
data:
embedding만 다르게 해서 실험
baseline:
language model (= decoding model)
: 얘는 아직 End-to-end가 아니구나?
logmel filterbank를 모델에서 어디서 사용되는거임?
ablation
그럼 Positive쌍을 k개가 있단건지? 아님 k번째 애랑 한다는 건지?
=> casual convolution 1d convolution