[NLP] BERT & ALBERT

ALBERT에서는 어떤 방법으로 BERT의 학습 파라미터 수를 줄였는가?워드 임베딩을 hidden layer의 크기로 바로 맵핑하는 것이 아니라, 더 작은 값인 embedding size로 새로 설정해주어 이후의 파라미터의 수를 전체적으로 줄입니다. 초반에 줄이는 것이

2022년 2월 8일
·
0개의 댓글