KVzap 기술은 미래에 중요할 정보인지 미리 예측하는 '쪽집게 조교(Tiny AI)'를 붙여서, 쓸모없는 정보는 과감히 버리는(Zap) 방식입니다.
LLM은 말을 길게 할수록 기억해야 할 정보(KV Cache)가 산더미처럼 불어납니다.
그래서 "중요한 건 남기고, 쓰레기 정보만 골라서 버리자"는 연구들이 나왔는데, 이걸 계산하는 과정 자체가 너무 느려서 오히려 생성 속도가 떨어지는 딜레마가 있었습니다.
KVzap은 이 딜레마를 해결하기 위해 세 가지 단계로 압축을 수행합니다.
먼저 연구진은 KVzip이라는 아주 똑똑하지만 느린 방식을 "정답지(Oracle)"로 삼았습니다. KVzip은 전체 내용을 다 보고 나서 "아, 이 정보가 나중에 진짜 많이 쓰였구나!"를 완벽하게 계산합니다. 하지만 이건 실시간 대화에서는 쓸 수 없습니다. 미래를 미리 봐야 하니까요.
KVzap은 이 느린 정답지 대신, 아주 가벼운 신경망(MLP 또는 Linear layer) 하나를 모델 옆에 붙입니다. 이 작은 신경망은 메인 모델이 텍스트를 처리할 때 옆에서 쓱 보고는 이렇게 예측합니다.
조교(KVzap): "주인님, 지금 들어온 '사과'라는 단어 있죠? 제가 척 보니까 이거 나중에 별로 안 중요할 것 같아요. 점수 20점!"
조교(KVzap): "어? 지금 들어온 '비밀번호'라는 단어는 나중에 무조건 다시 찾을 겁니다. 점수 95점!"
즉, 무거운 계산 없이 입력되는 순간 바로 중요도(Importance Score)를 예측해버립니다.
기존 방법들은 "무조건 50%만 남겨"처럼 강제로 비율을 정했다면, KVzap은 점수 커트라인(Threshold)을 둡니다.
이 세 가지 키워드로 이해하면 됩니다.
KVzip이라는 정답지의 패턴을 학습했기 때문에 "오래되었지만 중요한 정보(Needle)"는 기가 막히게 살려둡니다.KVzap은 LLM이 정보를 저장할 때, 옆에서 "이거 나중에 쓸모 있어?"라고 물어보는 초고속 필터를 달아놓은 것입니다. 쓸모없으면 바로 버리고(Zap), 쓸모있으면 챙겨서 메모리를 2배~4배까지 아끼면서도 똑똑함은 유지하는 기술입니다.