모델 양자화란?

wldbs._.·2025년 9월 22일
0

SW

목록 보기
8/8
post-thumbnail

참고

"양자화 컴퓨터", "모델 양자화"에 대하여 빈번하게 들어보았다.
이에 대해서 간략하게 알아보고자 한다.


양자화란?

👍 “양자화(quantization)”는 딥러닝 모델의 파라미터나 연산을 더 작은 정밀도로 표현하는 기술을 말한다.

쉽게 말하면, 모델이 내부에서 사용하는 숫자의 자릿수를 줄여서 계산을 가볍게 만드는 것이다.


1. 원래는 어떻게 되어 있나?

  • 대부분의 LLM(대규모 언어모델)은 FP32(32비트 부동소수점)이나 FP16(16비트 부동소수점) 형식으로 가중치와 연산을 한다.
  • 이 방식은 정확하지만, 메모리를 많이 쓰고 연산 속도가 느려질 수 있다.

2. 양자화(Quantization)란?

  • 더 낮은 비트수(예: INT8, INT4)로 숫자를 근사해서 저장/연산하는 방법
  • 예: 원래 32비트(약 43억 가지 값)로 표현하던 걸 → 8비트(256가지 값)로 줄여 표현.
  • 이렇게 하면:
    • 메모리 사용량: 줄어듦 (모델을 더 작은 GPU/CPU에서도 실행 가능)
    • 연산 속도: 빨라짐 (특히 CPU, 모바일 환경에서 효과적)
    • 정확도: 약간 손실될 수 있음 (하지만 잘 튜닝하면 거의 유지)

3. 양자화 방식 예시

  • Post-training quantization (PTQ) 이미 학습된 모델을 단순히 낮은 비트로 변환.
  • Quantization-aware training (QAT) 학습 단계에서부터 양자화를 고려해 훈련 → 정확도 손실 최소화.
  • Mixed precision 일부는 FP16/FP32, 일부는 INT8로 섞어서 사용.

4. 왜 중요할까?

  • 대형 모델을 소형 장치(노트북, 모바일, 엣지 디바이스)에서도 실행할 수 있게 해준다.
  • 서버에서도 메모리 절약 + 속도 향상 효과.
  • 예: GPT-계열 모델을 FP16 → INT4 양자화하면 메모리 사용량이 4분의 1 수준까지 줄어듦.

👉 정리하자면, 양자화는 “정밀도를 낮춰서 모델을 더 가볍고 빠르게 만드는 기술”

profile
공부 기록용 24.08.05~ #LLM #RAG

0개의 댓글