
1) PTQ of LLaMA3
Model: LLaMA3-8B, LLaMA3-70B
9 PTQ methods: RTN, GPTQ, AWQ, SmoothQuant, PB-LLM, QuIP, DB-LLM, BiLLM, SliM-LLM
Dataset: WikiText2, PTB, 일부분의 C4 dataset.
Metric: Perpleixty
5 zero-shot evaluation tasks: PIQA, Winogrande, ARC-e, ARC-c, Hellaswag
2) Q of LLMs via LoRA-FineTuning (LoRA-FT)
3) PTQ of LLaMA3-based LMMs
quantized LLaMA3 모델을 MLLM 모델 내에서 visual QA 작업에 test.

Table 7에 나타난 대로, 두 가지 PTQ 방법(AWQ, GPTQ) 하에서
4-bit MLLM은 multimodal benchmarks에서 2% 미만의 성능 손실을 보임.
즉, 모델 크기를 줄이면서도 효율적으로 visual-language 작업을 수행.
3-bit에서는 성능 손실이 5%에서 20% 범위로 나타남.
특히, MME Cognition 작업에서 20.75%로 가장 높은 손실을 기록.
2-bit LLaVA-Next-8B는 GPTQ 또는 AWQ 방법을 사용하더라도 여섯 가지 multimodal QA 작업에서 완전한 기능 collapse.
점수가 0으로 떨어짐.
Figure 2에서 Figure 6까지는 AWQ를 사용하여 다양한 bit-width에서 quantized된 LLaVA-Next-8B의 실제 visual-language 결과.





4-bit quantized 모델은 여전히 이미지에서 정확한 설명을 생성할 수 있는 반면,
3-bit 모델은 전체적인 multimodal 이해에서는 뛰어나지만 세부 사항의 손실을 겪음.
특히, Figure 2에서,

1) PTQ of LLaMA3




2) Q of LLMs via LoRA-FineTuning
MMLU dataset에서, LoRA-FT quantization 하에서의 LLaMA3-8B와 관련된 가장 주목할 만한 관찰은
Alpaca [22] dataset에 대한 low-rank finetuning이 quantization으로 인해 발생한 오류를 보상할 수 없을 뿐만 아니라,
오히려 성능 저하를 더 심각하게 만든다는 것
구체적으로, 다양한 LoRA-FT quantization 방법들은
LoRA-FT 없이 4-bit로 quantization된 경우와 비교했을 때,
4-bit 이하에서 quantization된 LLaMA3에서 더 나쁜 성능을 보임.
fine-tuning으로 보상할 수 없는 quantization으로 인한 상당한 성능 하락에도 불구하고,
4-bit LoRA-FT quantized LLaMA3-8B는
다양한 quantization 방법에서 LLaMA-7B와 LLaMA2-7B를 크게 능가.
예를 들어, QLoRA 방법을 사용할 때,
4-bit LLaMA3-8B의 평균 정확도는 57.0 (FP16: 64.8)으로,
4-bit LLaMA-7B의 38.4 (FP16: 34.6)를 18.6 포인트 앞서고,
4-bit LLaMA2-7B의 43.9 (FP16: 45.5)를 13.1 포인트 앞섭니다.
Accurate LoRA-Finetuning Quantization of LLMs via Information Retention(2024)
QA-LoRA: Quantization-aware Low-Rank adaptation of LLMs(2023)
이는 LLaMA3 시대에 새로운 LoRA-FT quantization 패러다임이 필요함을 시사함.
CommonSenseQA benchmark에서도 유사한 현상이 발생
