시리즈

Quantization[논문]

1.[21.03] A Survey of Quantization Methods for Efficient Neural Network Inference

논문 링크Motivation지난 십년동안, 신경망의 정확도가 획기적으로 향상되었다. 그런데, 주로 정확도 향상에 사용된 모델들은 over-parameterized 되는 경우가 종종 있다. 이런 경우, 정확도는 높지만, resource-constrained applica

2023년 12월 26일

2.[21.06] A White Paper on Neural Network Quantization

Quantization fundamentals

2024년 7월 8일

3.[23.03] Post-training Quantization on Diffusion Models

denoising diffusion model들의 생성 process는 굉장히 느린데,이는 번거로운 신경망에 의존하는, 긴 ierative noise estimation 때문이다.이 때문에 edge device들에 널리 사용되지 못하는 단점이 있다.이전의 연구들은 di

2024년 1월 8일

4.[23.06]Q-Diffusion: Quantizing Diffusion Models

noise estimation model의 low inference, high memory consumption, and computation intensity가 diffusion model의 효율적인 adoption을 방해하는 요소이다.PTQ가 다른 task들에 대해

2024년 3월 23일

5.[23.06] Temporal Dynamic Quantization for Diffusion Models

diffusion 모델은 획기적인 생성 성능과 vision applicaion에서 인기를 얻고 있다.하지만, high storage와 computation demans로 인해 model size가 크고 iterative generation을 하기 때문에, mobile

2024년 1월 4일

6.[24.07]LIDAR-PTQ: POST-TRAINING QUANTIZATION FOR POINT CLOUD 3D OBJECT DETECTION

PTQ는 convenient하고 straghtforward한 model compression 접근으로, 2D vision task에 널리 채택되어 왔다. 하지만, 이를 바로 3D lidar-based task에 적용하는 것은 performance degradation을

2024년 3월 21일

7.[23.08]A Survey on Model Compression for Large Language Models

LLM Quantizatoin Survey

2024년 8월 6일

8.[24.99]QLLM

" 1. channel reassembly technique": outlier channel들의 large activation magnitude를 channel들에 걸쳐서 redistributionchannel disassemblyoutlier channel들을 여러

2024년 9월 4일

9.[24.ICLR] RETHINKING CHANNEL DIMENSIONS TO ISOLATE OUTLIERS FOR LOW-BIT WEIGHT QUANTIZATION OF LARGE LANGUAGE MODELS

"activation outlier들을 다루는 방법으로, 기존의 output-channel 방향 대신, input-channel 방향으로 weight를 grouping"small batch inference settings에서 (예를 들어 mobile device) L

2024년 9월 6일