
논문 링크Motivation지난 십년동안, 신경망의 정확도가 획기적으로 향상되었다. 그런데, 주로 정확도 향상에 사용된 모델들은 over-parameterized 되는 경우가 종종 있다. 이런 경우, 정확도는 높지만, resource-constrained applica

Quantization fundamentals

denoising diffusion model들의 생성 process는 굉장히 느린데,이는 번거로운 신경망에 의존하는, 긴 ierative noise estimation 때문이다.이 때문에 edge device들에 널리 사용되지 못하는 단점이 있다.이전의 연구들은 di

noise estimation model의 low inference, high memory consumption, and computation intensity가 diffusion model의 효율적인 adoption을 방해하는 요소이다.PTQ가 다른 task들에 대해
diffusion 모델은 획기적인 생성 성능과 vision applicaion에서 인기를 얻고 있다.하지만, high storage와 computation demans로 인해 model size가 크고 iterative generation을 하기 때문에, mobile

PTQ는 convenient하고 straghtforward한 model compression 접근으로, 2D vision task에 널리 채택되어 왔다. 하지만, 이를 바로 3D lidar-based task에 적용하는 것은 performance degradation을

LLM Quantizatoin Survey
" 1. channel reassembly technique": outlier channel들의 large activation magnitude를 channel들에 걸쳐서 redistributionchannel disassemblyoutlier channel들을 여러

"activation outlier들을 다루는 방법으로, 기존의 output-channel 방향 대신, input-channel 방향으로 weight를 grouping"small batch inference settings에서 (예를 들어 mobile device) L