"activation outlier들을 다루는 방법으로, 기존의 output-channel(OC) 방향 대신, input-channel(IC) 방향으로 weight를 grouping"

"최종적으로, 각 layer에서 per-IC를 쓸지 또는 per-OC Quantization을 쓸지 결정하는, AdaDim(Adaptive Dimension) 방법 제안"


small batch inference settings에서 (예를 들어 mobile device) LLM을 serving할 때 large memory bottleneck이 문제가 됨.
4-bit 이하 Weight-only quantization은 large-magnitude activation outliers로 인해 challenge로 남아있음.
observation
activation outliers affect the input dimension of the weight matrix,
so similarly grouping the weights in the IC direction can isolate outliers within a group.
기존의 per-output-channel 대신, per-input-channel (IC) 안에서 quantization group을 만드는 방법을 제시.
large batch size
small batche size
weight-only quantization
small batch inputs은 modern GPUs의 powerful한 compute capacity로 충분히 커버 되기 때문에,
이 논문에선, compute보단 memory I/O를 가속하기 위해, weight-only quantization에 집중한다.
activation outlier가 modern LLMs에서 prevalent하긴 하지만, 모든 layer에서 나타나지는 않음.
weight sensitivity
largest activation 출몰 지역
activation outliers가 발생하는 hidden dimensions는 weight chanels가 sensitive rows를 갖도록 하는 correlation을 가짐.

activation outlier가 존재하지 않는 경우, weight matrix는 mixture of sensitive IC, OC channel들을 가질 수 있음. network depth에 걸쳐 바뀌기도 함.

Adaptive Q의 중요성
Optimization objective
OC 또는 IC dimension으로 할지 optimization parameter dim을 선택하는 간단한 binary selection problem으로 문제를 formulation함.
measure: reconstruction error metric

를 얻기 위해, pretraining corpus(e.g. The Pile)에서 random하게 sampling한 small calibration set을 사용했다.
dimension parameter의 search space가 오직 두 개이기 때문에, optimal dimension을 결정하기 위한 forward pass의 수가 매우 작다.
RTN과 GPTQ Augmenting