Efficient AI Study Offline Meetup 2025

Dyung·2025년 7월 26일

Optimization

목록 보기
3/4

한양대학교 융합전자공학부 최정욱 교수님의 연사 발표

AI Quantization

Motivation & Basic

  • 왜 효율적인 AI 기술이 필요할까?
    -기술이 발전하는데, 사용 비용은 떨어지고 있다.
    -최적화를 할 때 Reduced-Precision을 사용하는 것이 좋았다..
    • Well precision을 quantization 이라고 칭함.
    • zero point 구하는 방법, scale 시 maximum cutting, rounding(even, 조건 자체 훈련 등) 다양한 quantaization 기법이 있음.
    • 하지만 많은 오류가 생겨서 quantization aware training이 필요하게 됨. -> 크기를 많이 줄여도 Robust 하게 적용 가능하게 됨.
    • 175B 4byte 의 FP로 줄이면 4B의 메모리 공간이 필요함
    • 8B부터는 한 쪽에 치우진 아웃라이어 때문에 Weight와 Activation 성능이 떨어져서 아웃라이어 따로 처리하는 방법으로 Data Scaling(eg. SmoothQuant)을 활용하게 됨.
    • Data Calibration을 통해 weight를 로테이션 시키면 아웃라이어 분포가 전체적으로 흩뿌려지는 효과가 생김.
  • PEFT
    - 어댑터의 파라미터만 바꿈으로써 훈련을 효율적으로 하는 LoRA가 최근 발전됨.
    • MS point + KV(key Value) cache(New data type) 등등 여러 요소를 최적화할 수 있음
    • QLoRA에서 어댑터에 Accuracy Recovery 기능을 추가함.
    • 결국, 에러를 어디에서 보정을 해야하는 것인지가 문제였음.
    • 맨 마지막에 loss만 맞추는 방법을 채택하여 다양한 로라 방식에 적용했을 때 SOTA가 됨(교수님 논문).
  • Microscaling (MX) Format
    - outlier 핸들링이 가장 주요함. 이는 Kurtosis 에서 얼마나 벗어나있는지(outlier의 심각성)를 통해 볼 수 있음.
    • AMXFP4 제안. Asymmetric이 특징임(교수님 논문).

Trends

  • 추세 : LLM의 Long Context 지원
    - 긴 컨텍스트(코드, 시나리오 등) 지원 추세임.

    • 딜레이를 쟀을 때, 토큰이 많아진다는 것은 Transformer 구조의 QxK 에서 Key Cache의 T가 늘어나게 된다는 것임. 메모리 효율이 나빠져 결국 걸리는 시간이 점점 길어짐.
    • 모든 정보가 다 중요할까? 아님.결국 긴 컨텍스트를 줄이는 것이 핵심임.
    • Length가 늘어나도 latency가 급격히 커지지 않는 방법은, All KV Chache를 구하는 게 아닌, 배치 별로 무엇이 중요할 지 예측하며 배치 별 중요 내용 하나만 남기는 것임.
    • 예측은 Catalyst Prompt(CaP)를 사용함(교수님 논문).
    • 10K ~ 90K 까지 성능이 일정하게 됨.
  • HLRF, DPO에 양자화 적용?
    - 쉽지 않다. 단어 하나 틀어지면 뒤의 문장이 전부 틀어지기 때문이다.

    • Q-DPO 제안. 큰 모델 답변 vs 양자화 적용 답변 시 큰 모델 답변을 선호하도록 고르는 기법임.
  • Physical AI for Humanoid
    - Imitation learning : Quantization 시 초기 실패하면 이후 학습 부진을 겪음.

    • 셀리언시(학습 효과) 는 가중치 타입(int4, int8, bf16) 조정으로 정확도를 통해 알 수 있음.

New Trade-Offs
추론 경로(Reasoning Path)

  • 병렬? 직렬(연속)?
    - 추론 경로는 GPU utilization과 큰 연관이 있음.
    • 현재의 직렬 방법 이외에 병렬 방법도 가능.
  • AI Agent
    - 태스크 별로 CoT, Reflection 등의 기술 사용 시 효율이 다름.
  • Task Specific Quantization-aware Training
    - QAT가 3-bit 이하로 시행되도록(under aggressive (3bit)) 되면 QAT를 하는 모델이 가지고 있는 정보가 많이 틀어지게 됨.
    • Perplexity, Task Accuracy가 반비례함.

    • 기대하던 바와 다르므로 일반화되어 비례가 가능하도록 하는 양자화 기술이 기대됨.



서울대학교 VLSI LAB 대학원생 송지원님

Efficient LRM Inference with Reasoning Path Comparison

Why Efficient LRM Inerence?

  • O1, Qwen 등 Slow Thinking 기반 LLM이 자주 사용되는 추세임.
  • AIME(수학경시대회), LiveCodeBench (코드) 벤치마크에서 QwQ 프레임워크가 성능을 압도함.
  • 단계별로 의심과 재추론이 들어가서 로그스케일이 기하급수적으로 늘어나게 됨.
  • Pain Point : Input의 길이에 상관 없이 Output이 커진다.
  • KV Cache 가 꽉 차서 32B 모델을 돌리면 10GB로 시작해서 32G의 램을 다 사용하게 되는 문제가 생긴다.
  • 인풋 인코딩 압축 > 아웃풋 디코딩 압축 에 주목해왔기 때문임.
  • KV Budget을 도입하여(H2O, TOVA) 두면 동적으로 퀄리티를 조절하지 못하게 되기 때문에 문제가 됨.
  • Efficient Reasoning 자체를 타겟으로 한 방법은 없었을까?
    - 요약 모델을 이용해서 크기를 유지하는 방법 등이 있었지만
    • 모델을 하나 더 둬야 하는 게 귀찮고, Dramatic한 효과가 없다는 점이 문제였다.

Reasoning Path compression

  • 결국 토큰 스케일링을 사용함

Semantic Sparsity

  • 1K~8K의 토큰을 deepseek Qwen으로 확인함

Mechanism

  • Periodic Compression
  • Decoding Steps에 대비하여 KV Chace의 숫자를 적게 유지하도록 KV Puning을 수행하게 된다(RPC Algorithm 제안).

Evaluations
-DeepSeek-R1-Distill-Qwen-7B
-QwQ-32B

-IFEval (Instruction Following)
-AIME 2024 (Math)
-LiveCodeBench v5 (Coding)
-과한 RPC는 IFEval 등의 짧은 벤치마크에서 오히려 아웃풋 사이즈를 늘리는 결과를 보여줌.
-아웃풋 사이즈는 10% 이상 차이가 난 항목은 없음.
-Throughput이 2.5 배 이상 늘어난 점이 주목할 만함.

Open Challenges

  • 한계로는 멀티배치 시나리오에서의 추론 시간 단축의 한계가 있음.
  • 일반화된 모델 구현이 어려움. 추론 모드와 일반 모드가 스위칭 되는 등의 컨셉을 가진 모델이 많기 때문임.
  • 추론 스텝을 인지하는 압축이 필요함.
  • 중요도 점수 평가의 성능 향상이 필요함.
  • 실용 LLM 서빙 프레임워크가 통합되어야 함.



리벨리온 Chief Software Architect 김홍석 박사님

profile
AI / NLP / NLU

0개의 댓글