[Paper review] Robust Speech Recognition via Large-Scale Weak Supervision

heejini·2025년 4월 15일
1

Paper Review

목록 보기
3/3

Robust Speech Recognition via Large-Scale Weak Supervision [Paper] [Github]

Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever
OpenAI, 2022

  • 논문의 전문이 아닌 필요한 핵심 정보만 요약했으니 참고

wav2vec 2.0과 같은 비지도 학습(unsupervised learning) 기반 오디오 인코더의 등장은 음성 신호를 효과적으로 표현하는 데 있어 혁신적인 도약을 이뤘다. 이러한 인코더는 대규모 데이터에서 고품질의 음성 표현(representation)을 학습할 수 있게 했지만, 여전히 디코더(decoder)의 성능은 이에 상응하지 못하며, 대부분의 음성 인식 시스템은 특정 작업마다 디코더를 fine-tuning해야 하는 한계를 지니고 있다.

Fine-tuning의 문제점은 작업(task)별로 별도의 모델 조정이 필요하기 때문에, 많은 시간적·금전적 비용이 발생한다는 것이다. 특히, 다양한 도메인과 언어를 다루는 경우 이러한 비용은 기하급수적으로 증가한다. 따라서, 추가적인 fine-tuning 없이도 다양한 환경과 작업에서 높은 성능을 보이는 범용적인 음성 모델을 만드는 것이 중요한 과제로 떠오르고 있다.

이 논문에서는 이러한 한계를 극복하기 위해, 68만 시간 분량의 대규모 오디오 데이터셋을 활용해 학습된 Whisper2라는 모델을 제안한다. Whisper2는 weakly supervised learning(약한 지도 학습) 기법을 통해 데이터 품질의 한계를 극복했으며, 다국어(multilingual) 및 멀티태스크(multitask) 학습을 통합함으로써 범용성과 확장성을 크게 강화했다. Whisper2는 영어뿐만 아니라 96개 이상의 언어를 처리하며, 다양한 음성 데이터를 텍스트로 변환하거나 번역할 수 있는 기능도 포함하고 있다.

특히 Whisper2는 zero-shot transfer 기능을 통해 데이터셋별 추가적인 fine-tuning 없이도 기존의 다양한 데이터셋에 일반화할 수 있음을 입증했다. 이는 기존의 음성 인식 모델에서 일반화 성능이 떨어지는 문제를 극복하고, 다양한 환경에서도 신뢰할 수 있는 결과를 제공할 수 있다는 점에서 큰 의의를 가진다.

0개의 댓글