[경량화 챌린지] 14일차 - Double Quantization

ehghkwl·2025년 11월 28일

Lightweight Challenge

목록 보기

14/22

Double Quantization

Block wise Quantization을 하게 되는 경우, 원본 가중치의 메모리는 줄어들지만, S는 그만큼 늘어나게 된다.가중치를 4비트로 양자화 하더라도 S는 fp32로, 가중치 대비 12.5% (=32/(64*4))나 차지하게 된다.
이 오버헤드를 줄이기 위해 S또한 양자화를 해버리는 것은 Double Quantization이라고 한다!!
근데, 보통 S는 4비트로 양자화를 한다. 왤까?

S는 가중치의 증폭기 역할로, 값이 조금만 틀어져도 64개의 값 전체가 영향을 받게 된다. 그래서 8비트는 되어야 모델이 멍청해 지지 않는다고 한다.
그리고 두번이나 양자화를 했는데, 어떻게 성능이 유지되는걸까?
S 양자화 오차에 비해 가중치 양자화 오차가 더 커서 모델 성능이 유지되게 괸다.?

너무 졸리다ㅠㅠㅠ,,,,
내일 보충해야핮...

ehghkwl

안녕하세요.

이전 포스트

[경량화 챌린지] 13일차 - Normal Float 4

다음 포스트

[경량화 챌린지] 14일차 - Double Quantization

Lightweight Challenge

Double Quantization

[경량화 챌린지] 13일차 - Normal Float 4

[경량화 챌린지] 15일차 - PagedAttention

0개의 댓글