Block wise Quantization을 하게 되는 경우, 원본 가중치의 메모리는 줄어들지만, S는 그만큼 늘어나게 된다.가중치를 4비트로 양자화 하더라도 S는 fp32로, 가중치 대비 12.5% (=32/(64*4))나 차지하게 된다.
이 오버헤드를 줄이기 위해 S또한 양자화를 해버리는 것은 Double Quantization이라고 한다!!
근데, 보통 S는 4비트로 양자화를 한다. 왤까?
너무 졸리다ㅠㅠㅠ,,,,
내일 보충해야핮...