

방법

Per-Channel Key Quantization
Pre-RoPE Key Quantization
nuqX: An X-Bit Per-Layer Sensitivity-Weighted Non-uniform Datatype
Query, Key activation이 non-uniform 하기에 non-uniform quantization을 하려고 함.
non-uniform 방식을 사용한다고 할 때 역양자화 오버헤드가 크다(시간이 오래걸림)는 문제점이 있음
추가로, 기존에는 non-uniform 방식에서 signpost(매핑이 되는 기준)을 k-means 방식으로 구함
제안 방법
Offline: 추론 전, Calibration 데이터셋을 이용해 non-uniform datatype(signpost)을 미리 구해놓음
Online: 추론 시 Channel이나 Token에 맞게 non-uniform datatype의 스케일을 조절하여 사용


Per-Vector Dense-and-Sparse Quantization
Attention Sink-Aware Quantization
Offline Calibration versus Online Computation

성능 평가

장문 컨텍스트 성능 평가
PPL 측정, KV cahce 용량 비교 (4bit 양자화시 거의 성능 차이 없이 3.7배의 KV Cache 감소 효과)

Passkey Retrieval 측정 (장거리 정보 유지 성능 측정. 3bit 까지도 거의 원본에 가까운 성능을 유지함)

LongBench 측정 (다양한 장문 과제에서의 성능 측정(질의응답, 요약 등), 3bit임에도 성능 차이 0.7%)

RULER 측정 (문장의 다양한 위치의 정보를 잘 사용하는 지 측정, 3bit 까진 유사한 성능)

가중치 양자화와의 결합 시 성능 평가

실제 커널 성능 분석 및 메모리 절감 평가
