시리즈

MoA(Mixture of Attention)

1.MOA: MIXTURE OF SPARSE ATTENTION FOR AUTOMATIC LARGE LANGUAGE MODEL COMPRESSION

논문은 대규모 언어 모델(LLM)의 메모리 및 연산 효율성을 향상시키기 위해 Mixture of Attention (MoA) 기법을 제안

2024년 11월 28일