
- PTQ 방법론
- 3, 4 비트로 양자화하여도 손실 거의 없음 (low bit Quantization 성능)
- 2 비트에서도 안정적인 성능을 보임 (lower bit Quantization 성능)
- 수백억개의 초대규모 모델도 4시간 내에 PPL 증가 없이 양자화 가능 (학습 효율성)





- 오차가 가장 작은 가중치를 선택
- 선택된 가중치를 양자화
- 양자화로 인한 오차를 계산하고, 남은 가중치를 Update하여 오차를 보상
- 모든 가중치가 양자화될 때까지 과정 반복
- 초기 Inverse Hessian Matrix를 Cholesky Decomposition 하여 상삼각행렬 획득
- Weight 내부에서 일부 Block을 지정하고, Block 내부의 열을 계산하며 Block 내부의 나머지 Weight를 Update를 수행함.
- Block 내 모든 columns에 대해 양자화가 완료되면, 전체 잔여 Weight를 Update하고, 전체 잔여 Inverse Hessian Matrix 도 Update 수행.


- Inverse Hessian Matrix를 Cholesky Form으로 변환
- 각 Block에서 Column-Wise 양자화 수행하며 Block 내 나머지 Weight Update
- Block 양자화가 끝나면 나머지 전체 Weight와 Inverse Hessian Matrix Update
- 1~3과정을 반복하여 모든 Weight 양자화



