
Floating Point Converter 를 구현해보았다.

라즈베리파이5에 llama3.cpp porting 하기.
Quantization
Linear Layer 동작을 quantization 해보자.
convolution layer quantize Convolution Layer 의 동작. $$ Y=Conv(W, X) +b\\ $$ $$ SY(qY + ZY) = Conv(SW(qW + ZW), SX(qX + ZX)) +Sb(qb+Zb) $$ $$ \downarrow Zw = Zb = 0, Sb=SWS_X $$ $$ qY= \frac{SWSX}{...