Faster Quantized Inference with XNNPACK

eetocs·2022년 9월 23일
0

TFLite + XNNPACK이 int8 연산에서도 가속화를 지원하기 시작함 (21.09.09)

  • Quantized XNNPACK support operation
    • ADD
    • Conv_2d (Fused Relu, RELU_N1_T0_1, RELU7)
    • DepthWise_Conv_2d
    • Dequantize
    • ELU
    • Fully_connected
    • Logistic
    • Max_POOL_2d
    • MEAN
    • MUL
    • PAD
    • Quantize
    • RESIZE_BILINEAR
    • SUB
    • Transpose_conv
  • xnn_enable_qs8=true 옵션을 주고 TFLite bulid 해주면 사용 가능
모델ImageNet top-1Rpi 3b+
Efficinetnetlite-b0-float3275.1%135.2ms
Efficinetnetlite-b0-int874.4%82.7ms
MobileNet_v1_float3271.0%134.4ms
MobileNet_v1_int870.0%77.0ms
MobileNet_v2_float3271.8%95.7ms
MobileNet_v2_int870.8%70.5ms
  • 적은(?) 성능 drop으로 30% 정도의 inference 속도 향상 확인

on-device AI에서 Int8 Quantize는 이제 필수 조건

profile
ML 잡부

0개의 댓글