KVzap: Fast, Adaptive, and Faithful KV Cache Pruning

곽태욱·2026년 1월 21일

KV cache LLM kvzap pruning

https://arxiv.org/abs/2601.07891

KVzap 기술은 미래에 중요할 정보인지 미리 예측하는 '쪽집게 조교(Tiny AI)'를 붙여서, 쓸모없는 정보는 과감히 버리는(Zap) 방식입니다.

1. 배경: 왜 압축해야 해?

LLM은 말을 길게 할수록 기억해야 할 정보(KV Cache)가 산더미처럼 불어납니다.

기존 방식: 메모리가 부족하면 가장 오래된 대화를 지우거나(Window Attention), 무작정 최근 것만 남깁니다(LRU).
문제점: 이렇게 하면 옛날에 말했던 중요한 정보("내 비밀번호는 1234야")를 까먹어 버립니다.

그래서 "중요한 건 남기고, 쓰레기 정보만 골라서 버리자"는 연구들이 나왔는데, 이걸 계산하는 과정 자체가 너무 느려서 오히려 생성 속도가 떨어지는 딜레마가 있었습니다.

2. KVzap의 작동 원리

KVzap은 이 딜레마를 해결하기 위해 세 가지 단계로 압축을 수행합니다.

① 이상적인 정답지(Oracle)를 흉내 냄

먼저 연구진은 KVzip이라는 아주 똑똑하지만 느린 방식을 "정답지(Oracle)"로 삼았습니다. KVzip은 전체 내용을 다 보고 나서 "아, 이 정보가 나중에 진짜 많이 쓰였구나!"를 완벽하게 계산합니다. 하지만 이건 실시간 대화에서는 쓸 수 없습니다. 미래를 미리 봐야 하니까요.

② '쪽집게 조교' (Surrogate Model) 도입

KVzap은 이 느린 정답지 대신, 아주 가벼운 신경망(MLP 또는 Linear layer) 하나를 모델 옆에 붙입니다. 이 작은 신경망은 메인 모델이 텍스트를 처리할 때 옆에서 쓱 보고는 이렇게 예측합니다.

조교(KVzap): "주인님, 지금 들어온 '사과'라는 단어 있죠? 제가 척 보니까 이거 나중에 별로 안 중요할 것 같아요. 점수 20점!"
조교(KVzap): "어? 지금 들어온 '비밀번호'라는 단어는 나중에 무조건 다시 찾을 겁니다. 점수 95점!"

즉, 무거운 계산 없이 입력되는 순간 바로 중요도(Importance Score)를 예측해버립니다.

③ 문턱값(Threshold)으로 'Zap' (삭제)

기존 방법들은 "무조건 50%만 남겨"처럼 강제로 비율을 정했다면, KVzap은 점수 커트라인(Threshold)을 둡니다.

예측 점수 < 커트라인: "넌 필요 없어!" → 바로 삭제 (Zap!) ⚡
예측 점수 ≥ 커트라인: "넌 중요해!" → 캐시에 저장 💾

3. 왜 이게 혁신적인가? (핵심 특징 3가지)

이 세 가지 키워드로 이해하면 됩니다.

빠르다: 매번 전체 어텐션을 계산하는 게 아니라, 아주 작은 모델(MLP)로 점수만 딱 계산하고 넘어가니까 딜레이가 거의 없습니다. (오버헤드가 전체 연산의 1% 미만)

적응형이다: 이게 제일 중요합니다. 어려운 철학 책을 읽을 때는 정보가 중요하니까 90%를 남기고, 가벼운 잡담을 할 때는 20%만 남깁니다. 입력 난이도에 따라 메모리 사용량을 스스로 조절합니다.

충실하다: 무작정 지우는 게 아니라, KVzip이라는 정답지의 패턴을 학습했기 때문에 "오래되었지만 중요한 정보(Needle)"는 기가 막히게 살려둡니다.

요약

KVzap은 LLM이 정보를 저장할 때, 옆에서 "이거 나중에 쓸모 있어?"라고 물어보는 초고속 필터를 달아놓은 것입니다. 쓸모없으면 바로 버리고(Zap), 쓸모있으면 챙겨서 메모리를 2배~4배까지 아끼면서도 똑똑함은 유지하는 기술입니다.

곽태욱

이유와 방법을 알려주는 메모장 겸 블로그 (Frontend, AI, 경제, 책)

이전 포스트

LLM의 인지적 도약: 정적 토크나이제이션을 넘어선 동적 의미 청킹 제안

다음 포스트