KV캐쉬 최적화

HanJu Han·2024년 12월 19일

LLM 최적화

목록 보기
15/16

kv캐쉬를 hbm에 얼마나 차지하게 할지에 따라 배치 크기가 정해지고
배치 크기가 적당해야 sram의 연산 속도를 맞출 수 있다.

전체 시스템의 균형을 맞추는 것이 핵심

  1. HBM (40GB) 공간 분배:
- 모델 파라미터: 2GB
- KV 캐시 크기: 가변적
- 남은 공간: 배치 처리에 활용
  1. 균형점 찾기:
  • KV 캐시가 너무 크면:

    • 배치 크기가 작아짐
    • SRAM이 제 성능을 못 발휘 (연산 능력 낭비)
  • KV 캐시가 너무 작으면:

    • 배치 크기는 커질 수 있지만
    • 이전 계산 결과를 재활용하기 어려움
    • 중복 계산 증가
  1. 최적의 상태:
적절한 KV 캐시 크기
    ↓
적절한 배치 크기 설정 가능
    ↓
SRAM의 연산 능력을 최대한 활용
    ↓
전체 처리 속도 최적화

따라서 KV 캐시 크기를 조절하는 것이 전체 시스템 성능의 핵심 요소

profile
시리즈를 기반으로 작성하였습니다.

0개의 댓글