
ex) 20 - 4 - 4 = ? 의 결과를 예측할 때 “20, -, 4, -, 4, =, 12”의 토큰을 생성해야 하는데, “20 - 4” 이후 “-” 가 아닌 “+”처럼 잘못된 토큰을 생성하는 현상
→ 오류로 인해 계산의 결과가 완전히 달라지게 됨 (20 - 4 + 4 = 20)


관찰 3. 왜 Key가 더 중요한가?
Key와 Value Cache 양자화 비트 조절 시 PPL 성능

Key와 Value Cache 양자화 비트 조절 시 상대적 attention output error

동일 평균 비트의 출력 오차율 비교
| 6bit | Key 8bit, Value 4bit | Key 4bit, Value 8bit |
|---|---|---|
| 0.100 | 0.168 |
| 5bit | Key 8bit, Value 2bit | Key 2bit, Value 8bit |
|---|---|---|
| 0.401 | 0.882 |
| 3bit | Key 4bit, Value 2bit | Key 2bit, Value 4bit |
|---|---|---|
| 0.453 | 0.892 |
Key or Value Cache 각 양자화 비트 감소 시 출력 오차율
| Key 8bit, Value 8bit | Key 8bit, Value 4bit | Key 8bit, Value 2bit | |
|---|---|---|---|
| 0.014 | 0.100 | 0.401 |
| Key 8bit, Value 8bit | Key 4bit, Value 8bit | Key 2bit, Value 8bit | |
|---|---|---|---|
| 0.014 | 0.168 | 0.882 |
모두 Key Cache를 높게 양자화 하는 것이 오차율이 더 적음
⇒ Key Cache가 Value Cache 보다 양자화에서 더 중요하다!
⇒ Key Cache는 최대한 높게, Value Cache는 최대한 낮게 하는 것이 KV-Cache 양자화에 유리
관찰 4. KV 양자화 오류와 어텐션 패턴의 상관관계

관찰 5. KV 양자화시 레이어별 민감도

Automatic Layer-wise KV Cache Quantization Precision Pair Search
Problem Formulation
레이어별 KV 정밀도 쌍 튜닝 문제를 이산 조합 최적화 문제로 정의

Intra-Layer KV Cache Quantization Precision Pair Pruning
Intra-Layer Clustering
MOO(Multi-Objective Optimization) Search (여기까지가 Offline)
KV Cache 양자화 적용 (Online)
파레토-최적의 KV Cache 양자화 정밀도 쌍 찾기

수학 및 과학 추론 능력 평가


긴 문장 생성 정확도

처리량 (추론 속도)
