
최근 Transformer와 Convolution Neural Networks (CNNs) 기반의 모델이 Automatic Speech Recognition (ASR)에서 Recurrent Neural Networks (RNNs)을 능가하는 결과를 보였다. Transformer은 content 기반 global interaction을 capture 하는 반면 CNNs는 local feature을 효과적으로 활용한다. 본 논문에서는 local과 global 모두에서 효율적인 방법인 CNN과 Transformer을 결합하여 Conformer라는 음성 인식을 위한 convolution-augment Transformer를 제안한다. Conformer은 이전의 Transformer 및 CNN 기반 모델들을 능가하며 SOTA를 달성하였다.
Self-attention 기반의 Transformer
CNNs
저자는 parameter의 효율성을 위해서는 global와 local 모두의 interaction이 중요하기 때문에, self-attention와 convolution의 결합은 global & local 모두에서 최고를 달성할 것이라고 제안한다. 본 논
문은 그림 1과 같이 한 쌍의 feed forward 모듈 사이에 낀 self-attention와 convolution의 새로운 결합인 Conformer을 소개한다.
relative sinusoidal positional 인코딩 방식인 Transformer-XL의 주요 기술을 통합하면서 multi-headed self-attention(MHSA)를 사용한다. realative positional 인코딩을 통해 self-attention 모듈이 다양한 input 길이에 더 잘 일반화할 수 있으며, 결과 인코딩 발화(utterance) 길이의 변화에 더 둔감하다. 저자는 prenorm residual units을 더 깊은 모델을 훈련하고 정규화 할 때 도움이 되는 dropout과 사용한다. 
Convolution 모듈은 pointwise convolution과 gated linear unit (GLU)인 gating mechanism으로 시작하며 그 뒤에는 단일 1-D depthwise convolution layer이 위치한다. Batch norm은 convolution 직후에 배치되어 심층 모델 훈련을 돕는다. 
이와 달리 저자는 pre-norm residual units을 따르고 첫번째 linear layer 이전의 input이랑 residual unit 내에서 layer regulation을 적용한다. 또한 network 정규화에 도움이 되는 Swish activation와 dropout을 적용한다.

본 논문에서 제안한 Conformer block은 2개의 FFN이 MHSA와 Convolution 사이에 껴있는 구조이다. FFN 모듈에 half-step residule weights를 사용한다. 두번째 FFN 뒤에는 최종 layernorm layer이 따른다.
본 논문에서는 CNN과 Transformer의 구성 요소를 통합하여 end-to-end 음성 인식하는 Conformer을 소개한다. 각 구성 요소의 중요성을 연구하고 Conformer 모델의 성능에 convolution 모듈을 포함하는 것이 매우 중요하다는 것을 증명했다. 이 모델은 LibriSpeech dataset에 대한 이전 작업들보다 적은 수의 parameter로 더 좋은 accuracy를 보이고 test/test-other의 경우 1.9%/3.9%로 SOTA를 달성한다.