| 구분 | PTQ (Post-Training Quantization) | QAT (Quantization-Aware Training) |
|---|---|---|
| 핵심 아이디어 | 학습 후 FP32 모델을 정적/동적 보정으로 INT8/FP16 등으로 변환 | 학습 중 가짜양자화(fake quant)로 저정밀 연산을 모사하며 재학습 |
| 데이터/리소스 | 소량 캘리브레이션 데이터만 필요, 재학습 불필요 → 빠른 배포 | 추가 학습 필요(수~수십 epoch 미세튜닝), 리소스 더 필요 |
| 정확도 | 대체로 약간 손실(작업/모델에 따라 편차) | 일반적으로 PTQ 대비 정확도 손실 크게 회복 |
| 난이도/시간 | 쉬움·빠름, 배포 전 마지막 최적화에 적합 | 설정·훈련 비용↑, 하지만 정확도 요구치 높을 때 유리 |
| 하드웨어 | 대부분의 런타임/가속기에서 지원 (TFLite, TensorRT, OpenVINO 등) | 동일하게 지원. 특히 TensorRT/torch-tensorrt가 QAT 산출물을 잘 최적화 |
| 대표 유즈케이스 | 엣지·모바일, PoC, 재학습 여건이 없을 때 | 프로덕션에서 INT8 속도 + FP32 근접 정확도가 필수일 때 |

출처
tensorflow_ptq
tensorflow
GoogleAI_dev
NVIDIA
pytorch
pytorch