모델 양자화란?

wldbs._.·2025년 9월 22일

SW

목록 보기

8/8

참고

[Deep Learning] 양자화 Quantization - 1. 정의, 사용 경우 및 종류

Model Quantization (양자화)

모델 양자화 (Quantization) 개념

"양자화 컴퓨터", "모델 양자화"에 대하여 빈번하게 들어보았다.
이에 대해서 간략하게 알아보고자 한다.

👍 “양자화(quantization)”는 딥러닝 모델의 파라미터나 연산을 더 작은 정밀도로 표현하는 기술을 말한다.

쉽게 말하면, 모델이 내부에서 사용하는 숫자의 자릿수를 줄여서 계산을 가볍게 만드는 것이다.

대부분의 LLM(대규모 언어모델)은 FP32(32비트 부동소수점)이나 FP16(16비트 부동소수점) 형식으로 가중치와 연산을 한다.
이 방식은 정확하지만, 메모리를 많이 쓰고 연산 속도가 느려질 수 있다.

더 낮은 비트수(예: INT8, INT4)로 숫자를 근사해서 저장/연산하는 방법
예: 원래 32비트(약 43억 가지 값)로 표현하던 걸 → 8비트(256가지 값)로 줄여 표현.
이렇게 하면:
- 메모리 사용량: 줄어듦 (모델을 더 작은 GPU/CPU에서도 실행 가능)
- 연산 속도: 빨라짐 (특히 CPU, 모바일 환경에서 효과적)
- 정확도: 약간 손실될 수 있음 (하지만 잘 튜닝하면 거의 유지)

👉 정리하자면, 양자화는 “정밀도를 낮춰서 모델을 더 가볍고 빠르게 만드는 기술”

공부 기록용 24.08.05~ #LLM #RAG