지난 Sincnet
본 논문
머신러닝에서 supervision 없이 좋은 representation을 학습하는 것은 -> speech signal에서 challenge하다
몇 연구들은 -> 유용한 speech representation을 derive하는 것이 가능함을 입증함 (self-supervised encoder-discriminator approach를 이용해서)
본 논문
실험
Approach:
(1) 앙상블 뉴럴 네트워크 모델을 가지고,
(2) 여러가지 self-supervised downstream task 문제를 해결해서,
good speech representation을 discover하자!
Background & Limitation
딥러닝이 발전하지만 supervised learning이 가진 한계점 지적 (라벨링있는 데이터 필요) -> 그렇다면 무슨 해결책이 있는가.
unsupervised learning으로 라벨링 없는 데이터에서 정보 추출하자 !
cv에서 관련된 분야는 -> self-supervised learning으로 target은 singal 그 자체에서 계산
self-supervised learning을 speech에 적용하는 것에는 여전히 challenge가 있음
그래서 single self-supervised task를 찾는 것이 어려움 !! (latent structure를 포착하는 것이 가능한 general한 것을 찾는 일) -> 하나로 일반화해서 모든걸 처리하는게 어렵다는 뜻인건가?? 그래서 ensemble을 도입시켜서 다 해결해보자 이런 맥락인건가
Solution
multiple self-supervised task를 jointly하게 tackle하자
problem-agnostic speech encoder (PASE)
Experiment Result
논문 전체를 정리한, Study 발표: https://velog.io/@delee12/ASR-Paper-Review-PASE-Learning-Problem-agnostic-Speech-Representations-from-Multiple-Self-supervised-Tasks-PASE
PASE Goal
데이터가 부족하니까 unsupervised learning으로 해보자 !
자체적으로 라벨 만들어서 알아서 학습한다 !!
500ms 최소한 떨어진 애들을 sampling하는 이유?? -> longer time context 정보 학습 하려고 !!
Architecture
PASE Features 까지가 encoder고, 그 뒤에 workers를 decoder로 생각해보기?? (feature를 사용해서 다른 task에 써본다? worker는 학습을 위한 도구로 사용한 것)
PASE Feature를 효과적으로 뽑는 방법 -> worker를 사용
그 feature를 사용해서 -> 다른 task에 사용한 것
PASE+는 worker를 더 늘려서 -> 더 다양하게 해보자~~