
parent: SqueezeLLM Settings LLaMA, Llama-2, Llama-3, Mistral Wikitext-2, C4 1M on a single A100-80GB GPU, 10M on 8-GPU Motivation small batc
한 줄 정리KV cache eviction method에서 기존에 evict되는 unimportant token들을 low-precision으로 저장해서 최소한의 정보를 유지하고,important token은 high precision으로 저장하는 mixed-preci
Observations 1) KIVI는 간단한 task에선 👍🏻, 복잡한 task에선 👎🏻 simple task 👍🏻 기존 방법(KIVI, KVQuant, FlexGen)들은 간단한 작업에서 low-precision에서 잘 동작함. (multiple-ch