[핵심]QLLM

YEOM JINSEOP·2024년 9월 4일

Motivation

  • mathematical equivalence를 이용해서 activation의 outlier magnitude를 weight로 transition하려는 이전 연구들의 시도의 한계
    • 다른 outlier보다 50배 이상 큰 activation outlier들의 경우, 이전 연구로는 제한된 alleviation만 가능하다.

Methods

1. channel reassembly technique
: outlier channel들의 large activation magnitude를 channel들에 걸쳐서 redistribution

  • channel disassembly

    • outlier channel들을 여러 sub-channle들로 disassemble. channel들에 걸쳐 더 uniform한 activation range를 갖게함.
  • channel assembly

    • similar한 channel들을 assemble해서 original channel count를 유지한다.
    • channel iijj가 주어졌을 때, input feature의 average를 계산
  • adaptive disassembly channels for each layer
    각 channel의 disassemble할 개수를 apdative하게 결정함

0개의 댓글