양자화 : 모델의 파라미터를 lower bit로 표현하여, 계산과 메모리 access 속도를 높이는 경량화 기법
Post Training Quantization : Training 후 quantize 적용하는 기법
Quantization Aware Training : Training 과 정 중에서 quantize 수행, Fake Qunatization Node를 첨가하여 quntize시 어떻게 동작할 시 시뮬레이션 진행
Dynamic Quantization: 모델의 weight만 양자화 진행, activations는 추론할 때만 floating-points kernel로 dequantize후, 동적으로 양자화 진행, 모델을 메모리상으로 로딩하는 속도 개선에 적합, 추론 속도 향상은 미비함
Static Quantization : 모델의 weight, activations 모두 양자화를 사전에 진행함, Weight와 Activations를 fusion시킴, Representative Dataset을 통해 Calibration 진행, Activation 설정 및 정확도 손실 최소화, 연산속도 향상, 추론에 Activations가 영향이 큰 CNN 모델 계열에서 적합함
Quantization aware training : 학습 중에 모델의 weight, activations를 양자화 진행