
GPTQ: ACCURATE POST-TRAINING QUANTIZATION FOR GENERATIVE PRE-TRAINED TRANSFORMERS

1. Q할 weight를 고르는 방법 제시 (Q error 최소화 weight) 2. 나머지 weight를 update함으로써 보상하는 방법 제시

GPTQ + LLM.int8()

Sensitivity-based non-uniform QDense-and-Sparse decompositionsparse part: stores outliers and sensitivity weight values in an sparse format.dense part

2024.03 arXiv, Gholami keyword: memory bandwidth, bottleneck LLM의 main performance bottlenck은 (기존 computing에서) memory bandwidth이 되어가고 있다. (특히 LLM se
AWQ