

- backpropagation / reconstruction 에 의존 X (일반화 성능 보장)
- 단일 정밀도 양자화 방법 제안(W만 양자화) (하드웨어 효율성)
- 중요 가중치 보호, 가중치 스케일링 등 (양자화 오류 감소)
- Calibration Dataset을 넣었을 때 각 layer에서의 activation 분석
- activation 값이 큰 channel 선택 (0.1~1%)
- 식별된 중요한 channel에 대해 Scaling 수행(scaling factor는 초기 값 사용)
- scaling factor 최적화 (scaling factor를 greedy 하게 대입하며 quantization loss를 최소화하는 scaling factor 탐색)
- 최적화한 scaling factor를 이용하여 quantization 수행



