kv캐쉬를 hbm에 얼마나 차지하게 할지에 따라 배치 크기가 정해지고
배치 크기가 적당해야 sram의 연산 속도를 맞출 수 있다.
전체 시스템의 균형을 맞추는 것이 핵심
- 모델 파라미터: 2GB
- KV 캐시 크기: 가변적
- 남은 공간: 배치 처리에 활용
KV 캐시가 너무 크면:
KV 캐시가 너무 작으면:
적절한 KV 캐시 크기
↓
적절한 배치 크기 설정 가능
↓
SRAM의 연산 능력을 최대한 활용
↓
전체 처리 속도 최적화
따라서 KV 캐시 크기를 조절하는 것이 전체 시스템 성능의 핵심 요소