


1%의 Salient Weights를 보존
LLM의 성능에 있어서 weight가 동등하게 중요하지 않음
0.1~1%의 salient weights가 성능에 큰 영향을 미침 → 양자화 하지 않음 → 손실 줄임
salient weights를 찾기 위해 activation 분포를 사용

한계점
Activation-aware Scaling을 통해 Salient Weights 보존
양자화 오차를 줄이기 위해 Salient weights를 양자화 하기 전 크게 만들고, 양자화 후 작게 만듦
양자화 오차 분석
기존 양자화 방법

AWQ의 양자화 방법

양자화 오차

스케일링을 적용 했을 때 오차가 배 됨 (s>1일때)
스케일링의 효과 증명

최적의 스케일링 값 탐색
양자화 했을 때 원본과 차이가 가장 적은 s 값을 찾는 최적화 수식

탐색 공간 정의


실시간 가중치 역양자화는 메모리 접근을 줄이지만 아직 비싸다.
변환 과정에서 여러 연산을 수행하는데 한번에 하나의 4bit 가중치만 연산함.
최신 CPU는 SIMD (Single Instruction, Multiple Data, 한번에 여러 개의 데이터 처리) 기능 가지고 있음
모델의 데이터를 저장할 때 SIMD로 처리하기 좋은 순서로 데이터를 저장
w0, w1, w2 …(기존 순서) → w0, w16, w1, w17 …
SIMD에 맞는 순서로 저장하여 역양자화 속도 향상

실험
성능 평가
기본 언어 모델

GQA, MOE 모델

대화형 모델 (GPT-4를 이용해 답변 평가)

Multi-modal language model



코딩, 수학 문제 풀이 데이터셋에서의 추론 능력 평가

Extreme Low-bit Quantization (INT2)

데이터 효율성 및 일반화 성능 평가

속도 향상 평가


