

weight matrix: group-wise Q
activation matrix: token-wise Q
Layer-by-layer distilation(LKD)

Given
transformer blocks ,
dataset input
model을 layer-by-layer로 quantize하고, original(unquantized) version을 tecaher model로 사용한다.
layer 를 Q
기존 KD의 limitation 극복
(1) training 때 teacher model과 student model을 갖고 있어야 하므로, memory와 compute cost 증가.
(2) student model의 full training이 요구되므로, model update를 위해 gradient, first/second order momentum 등 weight parameter의 여러 복사본이 memory에 저장되어야 한다.
(3) 접근이 어려운 original training data가 요구됨.