

1. Uniform vs NonUniform
NonUniform : input을 output으로 변환했을 때 output값들의 차이가 일정하지 않음.

Uniform : input을 output으로 변환했을 때 output값들의 차이가 일정.

2. Symmetric vs Asymmetric
Asymmetric : output의 range를 정하는 min, max값의 절댓값이 동일하지 않은 경우

Symmetric : output의 range를 정하는 min, max값의 절댓값이 동일한 경우

모델이 학습된 이후에 Quantizing 진행
Inference 단계에서 Weight, Activation 이 원본 LLM의 Weight, Activation의 분포를 따르도록 quantizing 진행.
Calibration data가 PLM에 들어왔을 때 각 layer마다 scale을 저장해놓고, 이를 이용해 양자화.

어떤 것을 어느 과정에서 양자화하는지에 따라 2가지 방법 존재
Dynamic Quantization
학습이 끝난 모델의 weight는 미리 양자화를 진행하고, activation은 inference 시에 동적으로 양자화
Static Quantization
학습이 끝난 모델의 weight와 activation 모두 미리 양자화


- QAT
낮은 비트에서도 원래의 성능에 가깝게 동작하도록 하게끔 이용. 즉, 양자화 성능을 위한 목적으로 사용.- Activation Kurtosis Regularization
activation을 구하는 수식에 정규항을 추가해줌으로써, activation의 분포를 정규화된 형태로 유지해줌
모델 학습 동안 activation의 첨도를 최적화하여 이상 채널의 발생을 감소시킴.


