Background and Notation
Sparse Approximation
목표 : 가 되도록 D를 찾자
이 때 y는 에 proportional하다.
가정 : inherent redundancy exists
최적화 문제로 설명 가능
Learning Layer specific dictionary
Prefilling and Decoding with Lexico
Prefill
Decoding
Time/Space Complexity
- Sparse representation은 CSR format (FP8)로 저장, indices는 INT16으로 저장, 각 행이 하나의 key나 value vector에 해당함
- memory usage : s + 2s + 2 (non-zero + dictionary indices + offset)
- head dim 128 → 256bytes needed for uncompressed vector → (3s+2) / 256 만큼 사용
- Time complexity :
- original : →
- CSR : →
- long context일 때 더욱 효과적임. short일 때는 약간의 overhead 발생
Error Thresholding in sparse approximation
- OMP 가 error threshold 이하로 떨어질 경우 search 종료하도록 설계함.
Balancing memory between buffer and sparse representation
Adaptive Dictionary Learning
Latency Analysis