Grouped Query Attention

FSA·2025년 2월 23일

0

딥러닝 기초

목록 보기

41/44

Grouped Query Attention

Grouped Query Attention (GQA)는 Transformer 기반 모델에서 self-attention 메커니즘의 효율성을 높이기 위해 고안된 기법

1. 효율적인 KV 캐시 활용

KV 캐시 최적화:
- GQA는 입력 쿼리들을 그룹으로 묶어, 동일한 키(key)와 값(value) 정보를 공유하도록 설계
- 이로 인해 추론 단계에서 이미 계산된 KV 캐시를 효과적으로 재사용할 수 있어, 중복 계산을 줄이고 메모리 사용을 최적화

2. 계산 복잡도 및 연산 효율 개선

연산량 감소:
- 일반적인 multi-head self-attention에서는 각 쿼리가 독립적으로 키와 값을 사용해 연산을 수행하지만,
- GQA는 그룹 내에서 유사한 쿼리들을 묶어 한 번의 연산으로 처리
이를 통해 전체 어텐션 연산의 복잡도를 낮추고, 모델의 인퍼런스 속도를 향상

3. 메모리 효율성과 확장성 향상

대형 모델 적용에 유리:
- 대규모 언어 모델이나 긴 시퀀스를 처리할 때, 메모리 사용량과 계산 비용이 중요한 문제가 되는데, GQA는 이러한 문제를 완화

4. 적응적 정보 처리

유사 정보의 통합 처리:
그룹 내 쿼리들은 문맥상 유사한 정보를 포함하는 경우가 많아, 이를 하나의 그룹으로 처리함으로써 모델이 일관된 정보를 얻고, 보다 효과적으로 문맥을 이해하도록 지원합니다.

사용 목적

모델 최적화:
전체 모델의 계산 효율성을 높이고, 리소스 소모를 줄이기 위한 목적
추론 단계 성능 강화:
특히 긴 문맥 처리나 대규모 입력 데이터를 다루는 상황에서, KV 캐시의 재사용을 극대화하여 빠른 응답과 낮은 지연 시간을 달성
대규모 및 긴 시퀀스 모델링:
대형 언어 모델들이 긴 입력 시퀀스를 효과적으로 처리할 수 있도록 돕기 때문에, 장기 문맥 이해

모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

이전 포스트

rotary positional embedding

다음 포스트

Mixture of Experts (MoE)

0개의 댓글