자연어 표현을 사전 학습할 때 모델 크기를 증가시키면 다운스트림 작업에서 성능이 개선되는 경우가 많다. 그러나 모델 크기가 커질수록 GPU/TPU 메모리 제한과 긴 학습 시간 때문에 확장에 어려움이 있다.
이 문제를 해결하기 위해, 우리는 BERT의 메모리 사용량을 줄이고 학습 속도를 높이기 위한 두 가지 매개변수 감소 기법을 제안한다. 이 방법은 모델이 원래 BERT보다 훨씬 더 잘 확장될 수 있도록 돕는다.
이 질문에 대한 답변에서 장애물은 사용 가능한 하드웨어의 메모리 제한이다. 최신 최첨단 모델은 수억 개, 심지어 수십억 개의 매개변수를 가지고 있어, 모델을 확장하려 할 때 이러한 한계에 쉽게 도달할 수 있다. 분산 훈련에서는 모델의 매개변수 수에 비례하여 통신 오버헤드가 발생하므로 훈련 속도가 크게 저하될 수 있다.
기존 솔루션으로는 모델 병렬화(Shazeer et al., 2018; Shoeybi et al., 2019) 및 메모리 관리 기법(Chen et al., 2016; Gomez et al., 2017)이 있지만, 이는 메모리 제한 문제만 해결할 뿐 통신 오버헤드는 해결하지 못한다. 본 논문에서는 전통적인 BERT 아키텍처보다 훨씬 적은 매개변수를 가진 A Lite BERT (ALBERT) 아키텍처를 설계함으로써 이러한 문제를 모두 해결한다.
ALBERT는 사전 학습된 모델을 확장하는 데 주요 장애물을 극복하는 두 가지 매개변수 감소 기법을 통합한다.
요인화된 임베딩 매개변수화: 대규모 어휘 임베딩 행렬을 두 개의 작은 행렬로 분해하여 숨겨진 레이어의 크기를 어휘 임베딩의 크기와 분리한다. 이 분리는 어휘 임베딩의 매개변수 크기를 크게 증가시키지 않고 숨겨진 크기를 확장하기 쉽게 한다.
교차 레이어 매개변수 공유: 네트워크 깊이에 따라 매개변수가 증가하는 것을 방지한다. 이 두 가지 기법은 성능을 크게 해치지 않고 BERT의 매개변수 수를 줄여 매개변수 효율성을 향상한다. BERT-large와 유사한 ALBERT 구성은 18배 적은 매개변수를 가지며 약 1.7배 더 빠르게 훈련될 수 있다. 매개변수 감소 기법은 또한 훈련을 안정화하고 일반화하는 데 도움이 되는 정규화의 형태로 작용한다.