

Asymmetric Quantization (비대칭 양자화)
Key Cache: Per-channel quantization
Value Cache: Per-token quantization

Grouped & Residual Cache
overview


원본 모델 대비 2bit 양자화에도 불구하고 비슷한 성능을 유지함

원본 모델과 비교해서 성능이 떨어지지 않음

최대 4배 더 큰 배치 사이즈 처리 가능
배치 사이즈가 커짐에 따라 초당 토큰 처리량 2~3배 향상

G: 32~64정도에서 안정적인 성능
R: 너무 작아지면 성능이 떨어질 수 있음
