Conformer 모델 리뷰

게으른 개미개발자·2023년 1월 19일
0

ASR

목록 보기
5/6

(가) Conformer, 음성 인식을 위한 Convolution-augmented Transmformer 알고리즘 적용 : (배경. 작성(why?))

① 정확한 음성 인식을 위하여 음성 인식 알고리즘 중 높은 정확도와 성능을 보이는 Conformer(2020년 5월 발표) 알고리즘을 적용 (표. )

Conformer는 SOTA 성능을 보여준 Transformer와 CNN 기반의 모델들보다 훨씬 뛰어난 성능을 가져옴. 언어모델을 사용하지 않고 학습한 M사이즈 모델의 경우, testclean 데이터셋에서 WER 2.3, testother 데이터셋에서 WER 5.0을 기록하며, Transformer보다 낮은 WER을 기록함으로써, 높은 성능을 보여줌. LSTM 기반 언어모델을 사용하고, 모델 파라미터 사이즈를 키웠을 때, Transformer 대비 높은 성능을 보여줌.

(나) Conformer 구조

① Conformer 알고리즘은 음성 인식 도메인에서 CNN과 Transformer Encoder의 Self Attention을 결합한 네트워크를 기반으로 하여, Transformer의 장점인 long-range global context 추출의 이점을 취했으며, CNN의 local information 추출의 이점을 취했음. 이를 통해, global과 local 조합이 의미 있는 parameter를 증대시킴. Conformer Encoder의 구조는 마카롱과 같이 1/2개의 Feed Forward Module을 MHSA(Multi-Head Self Attention)와 Convolution Module 양쪽에 배치함.

② Multi-Headed Self Attention Module

Conformer의 MHSA에서 Transformer-XL 모델에서부터 중요한 기법으로 사용된 relative sinusoidal positional 인코딩 기법을 사용함. relative positional 인코딩은 입력 길이가 다양하더라도 self-attention 모듈을 일반화하여 사용할 수 있도록 도와줌. 가변적인 시퀀스 입력 길이에 대해 encoder를 견고하게 만들어줌. 또한, 기존 Transformer는 post-norm인데 반해, Conformer는 pre-norm residual units을 사용함으로써 더 깊은 모델을 학습하고 정규화함. 이전 연구들에서 pre-norm은 더 깊은 모델 학습을 원활하게 하는 효과가 있다고 함.

③ Convolution Module

Convolution Module은 Pointwise Convolution과 Glu(gated linear unit)으로 시작함. 이어서 1D Conv 레이어를 거쳐 BatchNormalization으로 정규화해줌. 중간에 BN은 깊게 학습하는 것을 목적으로 사용됨. 이후, Swish Activation과 Pointwise Convolution을 거치게 됨.

④ Feed Forward Module

기존 Transformer 모델에서는 MHSA(Multi-head self Attention)레이어 다음에 배치하였음. 두 개의 linear transformations와 비선형 activation으로 구성되어 있음. Feed-Forward layer는 기존의 Transformer 모델과 같은 구조를 갖고 있음. 이를 Conformer 모델에서도 똑같이 적용해서 사용함.

(다) 정리

Conformer block은 두 개의 Feed Forward Module이 MHSA와 Convolution Module을 가운데 두고 샌드위치처럼 감싸고 있음. 이는 Macaron-Net 모델의 구조를 가져온 것. 기존 Transformer에서 있었던 한 개의 Feed Forward Module을 1/2씩 두 개로 나눠서 설계하였고, 각각 Convolution layer 전과 후에 배치함. 여러 실험을 통해, Self-attention 모듈 뒤에 Convolution 모듈이 있을 경우, 음성 인식에 대해 효과적으로 작동하였음. 또한, 한 개의 FFN으로 설계했을 때보다 2개로 1/2씩 나눠서 배치했을 경우, 훨씬 효과적이었음.

profile
특 : 미친듯한 게으름과 부지런한 생각이 공존하는 사람

0개의 댓글