APQ-ViT: Towards Accurate Post-Training Quantization for Vision Transformer

문상준·2025년 10월 28일

논문 리뷰

목록 보기

17/28

APQ-ViT: Towards Accurate Post-Training Quantization for Vision Transformer

ARQ-ViT에 대한 내용

Abstract

P1. 기존 SF 지표(calibration metric)가 low-bit에 대한 Q 영향을 측정하는데 부정확
S1.
Block-wise로 Q perturbation을 감지
+
중대한 오차에 대한 집중도를 높이기 위해, 사소한 오차를 무시
⇒ Bottom-elimination Blockwise Calibration

P2. 기존 Q 패러다임이 Softmax의 power-law-distribution에 친화적이지 X
S2.
softmax의 power-law-distribution을 유지하기 위해, Matthew-effect Preserving Quantization 설계

1 Introduction

S1. Blockwise Bottom-elimination Calibration, BBC는
block-wise하게 Q error를 감지
+
사소한 error에 해당하는 2차 그래디언트를 생략하여, 중대한 오차에 집중

S2. Mattew-effect Preserving Quantization, MPQ는
softmax의 목적에 맞게, 큰 값(중요한 값)에 더 많은 bin 할당

생략

3 Method

3.1 Preliminaries

PTQ4ViT는 최적의 SF를 결정하기 위해, Hessian guided metric을 사용.

위 Q로 인한 작업 손실의 기댓값을 최소화하는 SF를 찾아야함.

⇒ $min_\Delta(E[L(\hat{x})]-E[L(x)])$

⇒ ≈ $min_\Delta((\hat{O}-O)^T\bar{H}^{(O)}(\hat{O}-O))$

이후
구간을 $n$ 등분한 $\Delta_x$ 의 search space를 순회하며, ≈ $min_\Delta((\hat{O}-O)^T\bar{H}^{(O)}(\hat{O}-O))$ 를 만족하는 $\Delta_w, \Delta_a$ 를 교대 탐색!!!

3.2 Blockwise Bottom-elimination Calibration

PTQ4ViT의 hessian guided metric은 low-bit에서,
layer-wise한 최적화가 block level에서의 Q를 감지할 수 없어, 부정확
+
낮은 비트에서 오차(hessian matrix)가 클 수 밖에 없는데,
dense한 hessian matrix는
사소한 오차'까지 모두 보려다가, '중대한 오차'에 대한 집중도를 잃음

⇒

4bit에서 인접한 후보 SF들끼리 loss 차이가 큼
+
너무 뾰족 뾰족해서, 최적 찾기 어려움

⇒ Blockwise Bottom-elimination Calibration

1. Blockwise하다?

어떤 b번째 block의 input/output을 $a^b, O^b$ 라고 할 때,
$O^b={w_L^b}^T{w_{L-1}^b}^T...{w_1^b}^Ta^b$ 이다.
또한 $l$ 번째 layer가 보정될 때, $L$ 번째부터 $l$ 번째 layer까지의 복합 레이어로 간주될 수 있고, 그 weight와 activation은 다음과 같음