시리즈

Quantization

1.Floating Point Converter

Floating Point Converter 를 구현해보았다.

2024년 8월 12일

2.llama.cpp in raspberry pi5

라즈베리파이5에 llama3.cpp porting 하기.

2024년 8월 20일

3.aimet quantize code 분석(1)

Quantization

2024년 9월 6일

4.aimet quantize code 분석(2)

Linear Layer 동작을 quantization 해보자.

2024년 9월 6일

5.aimet quantize code 분석(3)

convolution layer quantize Convolution Layer 의 동작. $$ Y=Conv(W, X) +b\\ $$ $$ SY(qY + ZY) = Conv(SW(qW + ZW), SX(qX + ZX)) +Sb(qb+Zb) $$ $$ \downarrow Zw = Zb = 0, Sb=SWS_X $$ $$ qY= \frac{SWSX}{...

2024년 9월 6일