KV 캐시(Key-Value Cache)

김동준·2025년 10월 20일

KV 캐시(Key-Value Cache)는 트랜스포머 기반 언어 모델에서 추론 속도를 높이기 위해 사용하는 최적화 기법입니다.

작동 원리

트랜스포머 모델이 텍스트를 생성할 때, 각 새로운 토큰을 만들기 위해 어텐션(attention) 메커니즘을 사용합니다. 이 과정에서:

Key(K)와 Value(V) 계산: 각 토큰에 대해 Key와 Value 벡터를 계산합니다
반복 계산 문제: 새 토큰을 생성할 때마다 이전의 모든 토큰에 대한 K, V를 다시 계산해야 합니다
캐싱 해결책: 이미 계산한 K, V 값을 메모리에 저장(캐시)해두고 재사용합니다

장점

속도 향상: 중복 계산을 제거하여 추론 속도가 크게 빨라집니다
효율성: 특히 긴 문맥을 다룰 때 계산량이 선형적으로 증가하는 것을 방지합니다

단점

메모리 사용: 캐시를 저장하기 위해 상당한 GPU 메모리가 필요합니다
배치 크기 제한: 메모리 제약으로 인해 동시에 처리할 수 있는 요청 수가 제한될 수 있습니다

KV 캐시는 현대 LLM 서비스에서 필수적인 기술로, ChatGPT나 Claude 같은 서비스에서 대화를 빠르게 생성할 수 있게 해주는 핵심 요소입니다.

Story Engineer

이전 포스트

Word Embeddings

다음 포스트

Tail latency

0개의 댓글