[Abstract 요약] Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Fre

yeomm·2026년 1월 23일

AI 논문리뷰

목록 보기

24/24

Attention sink: softmax 기반 어텐션 매커니즘은 출력 합이 1이 되어야 해서 입력 토큰과 관련 없는 토큰 (보통 문장의 첫번째 토큰 [CLS])에 가중치를 부여하는 문제
논문에서는 이 문제를 해결하기 위해 SDPA (Scaled Dot-Product Attention) 이후에 헤드별 시그모이드 게이트(head-specific sigmoid gate)를 적용하는 방식 도입 → SDPA의 출력 값 뒤에 각 헤드 별로 sigmoid 게이트 추가해서 어텐션 헤드가 내놓은 정보가 유용하지 않으면 거의 사용하지 않도록 처리
- 비선형성 도입: 기존 어텐션은 단순히 가중치 합(Linear Combination)이었으나, Sigmoid 게이트가 추가되면서 모델이 정보를 선택적으로 수용할 수 있는 비선형성 도입
- 희소성: 중요하지 않은 정보라면 게이트 값을 0에 가깝게 만들어 해당 헤드의 출력을 사실상 제거 → 불필요한 정보 누적 방지
- 학습률: 훈련 초기에 특정 토큰에 과하게 어텐션이 쏠려 그래디언트가 튀는 불안정성을 잡아주어 더 큰 학습률 사용할 수 있게 해줌