An Empirical Study of LLaMA3 Quantization- From LLMs to MLLMs

YEOM JINSEOP·2024년 10월 10일

LLMs VLM

Settings

1) PTQ of LLaMA3
- Model: LLaMA3-8B, LLaMA3-70B
- 9 PTQ methods: RTN, GPTQ, AWQ, SmoothQuant, PB-LLM, QuIP, DB-LLM, BiLLM, SliM-LLM
- Dataset: WikiText2, PTB, 일부분의 C4 dataset.
- Metric: Perpleixty
- 5 zero-shot evaluation tasks: PIQA, Winogrande, ARC-e, ARC-c, Hellaswag
2) Q of LLMs via LoRA-FineTuning (LoRA-FT)
- Quantization 이후 Fien-Tuning
- 2 LoRA-FT methods: QLoRA, IR-QLoRA
- dataset: 5-shot MMLU benchmark, 5 zero-shot evaluation tasks.
3) PTQ of LLaMA3-based LMMs
- Model: LLaVA-Next-8B
- 위 모델의 LLaMA3 부분에 PTQ 적용.
- GPTQ, AWQ
- Dataset: 6 visual language benchmarks
  (AI2D, ChartQA, DocVQA, MME, MMBench)

실험 결과

3) PTQ of LLaMA3-based LMMs

quantized LLaMA3 모델을 MLLM 모델 내에서 visual QA 작업에 test.
- Table 7에 나타난 대로, 두 가지 PTQ 방법(AWQ, GPTQ) 하에서
  4-bit MLLM은 multimodal benchmarks에서 2% 미만의 성능 손실을 보임.
  즉, 모델 크기를 줄이면서도 효율적으로 visual-language 작업을 수행.
- 3-bit에서는 성능 손실이 5%에서 20% 범위로 나타남.
  특히, MME Cognition 작업에서 20.75%로 가장 높은 손실을 기록.
- 2-bit LLaVA-Next-8B는 GPTQ 또는 AWQ 방법을 사용하더라도 여섯 가지 multimodal QA 작업에서 완전한 기능 collapse.
  점수가 0으로 떨어짐.
Figure 2에서 Figure 6까지는 AWQ를 사용하여 다양한 bit-width에서 quantized된 LLaVA-Next-8B의 실제 visual-language 결과.
- 4-bit quantized 모델은 여전히 이미지에서 정확한 설명을 생성할 수 있는 반면,
- 3-bit 모델은 전체적인 multimodal 이해에서는 뛰어나지만 세부 사항의 손실을 겪음.
- 특히, Figure 2에서,
  - 4-bit와 3-bit 모델이 사람들과 그들의 행동을 묘사하는 것은 16-bit 모델과 대체로 일치.
  - 또한, 4-bit 모델은 "Big companies"라는 추상적 의미 이해에서 16-bit 모델과 일치하지만,
    3-bit 모델은 "Big companies"를 구멍의 크기를 설명하는 용어로 잘못 해석.
  - 2-bit quantization에서는 합리적인 답변을 생성하는 데 어려움을 겪으며, 반복적인 문자 응답을 나타냄.
  - 이는 순수 언어 작업에서 2-bit 모델이 여전히 논리적으로 일관된 문장을 생성할 수 있다는 이전 연구와는 대조적입니다. MLLM 작업에서는 2-bit 모델이 기대에 가까운 결과를 생성하지 못함.
  - 이는 현재 LLM에서의 PTQ 방법(AWQ, GPTQ)이ultra-low bit MLLM 모델에서는 동일하게 효과적이지 않다는 것을 보여주며, 이 큰 도전에 대해 더 나은 quantization 솔루션을 제안할 필요가 있음을 시사함.

1) PTQ of LLaMA3
- LLaMA3 8B
  - GPTQ는 2-3 bits 이하에서, accuracy가 심각하게 collapse
  - SmoothQuant는 6-bit, 8-bit weights and activations에서 accuracy를 잘 유지하지만,
    4-bit에서 collapse
- LLaMA3 70B
  - 여러 Q methods에 대해서 robust함.
2) Q of LLMs via LoRA-FineTuning
- MMLU dataset에서, LoRA-FT quantization 하에서의 LLaMA3-8B와 관련된 가장 주목할 만한 관찰은
  Alpaca [22] dataset에 대한 low-rank finetuning이 quantization으로 인해 발생한 오류를 보상할 수 없을 뿐만 아니라,
  오히려 성능 저하를 더 심각하게 만든다는 것
- 구체적으로, 다양한 LoRA-FT quantization 방법들은
  LoRA-FT 없이 4-bit로 quantization된 경우와 비교했을 때,
  4-bit 이하에서 quantization된 LLaMA3에서 더 나쁜 성능을 보임.
  - 이는 LLaMA와 LLaMA2에서 관찰된 유사한 현상과 극명한 대조를 이룸.
  - 이전 모델들에서는 4-bit low-rank finetuned quantized 버전이
    MMLU에서 original FP16 counterpart를 쉽게 능가할 수 있었음.
  - 직관적 분석에 따르면, 이 현상의 주된 이유는 LLaMA3의 massive pre-scale training으로 인한 강력한 성능 때문.
  - 이는 original model의 quantization으로 인한 성능 손실이
    low-rank parameters를 가진 작은 데이터셋으로의 finetuning으로는 보상될 수 없음을 의미.
- fine-tuning으로 보상할 수 없는 quantization으로 인한 상당한 성능 하락에도 불구하고,
  4-bit LoRA-FT quantized LLaMA3-8B는
  다양한 quantization 방법에서 LLaMA-7B와 LLaMA2-7B를 크게 능가.
- 예를 들어, QLoRA 방법을 사용할 때,
  4-bit LLaMA3-8B의 평균 정확도는 57.0 (FP16: 64.8)으로,
  4-bit LLaMA-7B의 38.4 (FP16: 34.6)를 18.6 포인트 앞서고,
  4-bit LLaMA2-7B의 43.9 (FP16: 45.5)를 13.1 포인트 앞섭니다.
  Accurate LoRA-Finetuning Quantization of LLMs via Information Retention(2024)
  QA-LoRA: Quantization-aware Low-Rank adaptation of LLMs(2023)
  이는 LLaMA3 시대에 새로운 LoRA-FT quantization 패러다임이 필요함을 시사함.
- CommonSenseQA benchmark에서도 유사한 현상이 발생
  - LoRA-FT 없이 4-bit로 quantization된 counterpart와 비교했을 때,
    QLoRA와 IR-QLoRA를 사용해 fine-tuning된 모델들의 성능도 하락
    (예: QLoRA 평균 2.8% vs IR-QLoRA 평균 2.4%)
  - 이는 LLaMA3에서 high-quality datasets 사용의 중요성을 더욱 입증하며,
    Alpaca와 같은 general dataset이 다른 task에서 모델의 성능 향상에 기여하지 않음을 보여줌.

YEOM JINSEOP

이전 포스트

LoRA

다음 포스트

An Empirical Study of LLaMA3 Quantization- From LLMs to MLLMs

Settings

실험 결과

3) PTQ of LLaMA3-based LMMs

LoRA

AWQ

0개의 댓글