한양대학교 융합전자공학부 최정욱 교수님의 연사 발표
AI Quantization
Motivation & Basic
- 왜 효율적인 AI 기술이 필요할까?
-기술이 발전하는데, 사용 비용은 떨어지고 있다.
-최적화를 할 때 Reduced-Precision을 사용하는 것이 좋았다..
- Well precision을 quantization 이라고 칭함.
- zero point 구하는 방법, scale 시 maximum cutting, rounding(even, 조건 자체 훈련 등) 다양한 quantaization 기법이 있음.
- 하지만 많은 오류가 생겨서 quantization aware training이 필요하게 됨. -> 크기를 많이 줄여도 Robust 하게 적용 가능하게 됨.
- 175B 4byte 의 FP로 줄이면 4B의 메모리 공간이 필요함
- 8B부터는 한 쪽에 치우진 아웃라이어 때문에 Weight와 Activation 성능이 떨어져서 아웃라이어 따로 처리하는 방법으로 Data Scaling(eg. SmoothQuant)을 활용하게 됨.
- Data Calibration을 통해 weight를 로테이션 시키면 아웃라이어 분포가 전체적으로 흩뿌려지는 효과가 생김.
- PEFT
- 어댑터의 파라미터만 바꿈으로써 훈련을 효율적으로 하는 LoRA가 최근 발전됨.
- MS point + KV(key Value) cache(New data type) 등등 여러 요소를 최적화할 수 있음
- QLoRA에서 어댑터에 Accuracy Recovery 기능을 추가함.
- 결국, 에러를 어디에서 보정을 해야하는 것인지가 문제였음.
- 맨 마지막에 loss만 맞추는 방법을 채택하여 다양한 로라 방식에 적용했을 때 SOTA가 됨(교수님 논문).
- Microscaling (MX) Format
- outlier 핸들링이 가장 주요함. 이는 Kurtosis 에서 얼마나 벗어나있는지(outlier의 심각성)를 통해 볼 수 있음.
- AMXFP4 제안. Asymmetric이 특징임(교수님 논문).
Trends
-
추세 : LLM의 Long Context 지원
- 긴 컨텍스트(코드, 시나리오 등) 지원 추세임.
- 딜레이를 쟀을 때, 토큰이 많아진다는 것은 Transformer 구조의 QxK 에서 Key Cache의 T가 늘어나게 된다는 것임. 메모리 효율이 나빠져 결국 걸리는 시간이 점점 길어짐.
- 모든 정보가 다 중요할까? 아님.결국 긴 컨텍스트를 줄이는 것이 핵심임.
- Length가 늘어나도 latency가 급격히 커지지 않는 방법은, All KV Chache를 구하는 게 아닌, 배치 별로 무엇이 중요할 지 예측하며 배치 별 중요 내용 하나만 남기는 것임.
- 예측은 Catalyst Prompt(CaP)를 사용함(교수님 논문).
- 10K ~ 90K 까지 성능이 일정하게 됨.
-
HLRF, DPO에 양자화 적용?
- 쉽지 않다. 단어 하나 틀어지면 뒤의 문장이 전부 틀어지기 때문이다.
- Q-DPO 제안. 큰 모델 답변 vs 양자화 적용 답변 시 큰 모델 답변을 선호하도록 고르는 기법임.
-
Physical AI for Humanoid
- Imitation learning : Quantization 시 초기 실패하면 이후 학습 부진을 겪음.
- 셀리언시(학습 효과) 는 가중치 타입(int4, int8, bf16) 조정으로 정확도를 통해 알 수 있음.
New Trade-Offs
추론 경로(Reasoning Path)
- 병렬? 직렬(연속)?
- 추론 경로는 GPU utilization과 큰 연관이 있음.
- AI Agent
- 태스크 별로 CoT, Reflection 등의 기술 사용 시 효율이 다름.
- Task Specific Quantization-aware Training
- QAT가 3-bit 이하로 시행되도록(under aggressive (3bit)) 되면 QAT를 하는 모델이 가지고 있는 정보가 많이 틀어지게 됨.
서울대학교 VLSI LAB 대학원생 송지원님
Efficient LRM Inference with Reasoning Path Comparison
Why Efficient LRM Inerence?
- O1, Qwen 등 Slow Thinking 기반 LLM이 자주 사용되는 추세임.
- AIME(수학경시대회), LiveCodeBench (코드) 벤치마크에서 QwQ 프레임워크가 성능을 압도함.
- 단계별로 의심과 재추론이 들어가서 로그스케일이 기하급수적으로 늘어나게 됨.
- Pain Point : Input의 길이에 상관 없이 Output이 커진다.
- KV Cache 가 꽉 차서 32B 모델을 돌리면 10GB로 시작해서 32G의 램을 다 사용하게 되는 문제가 생긴다.
- 인풋 인코딩 압축 > 아웃풋 디코딩 압축 에 주목해왔기 때문임.
- KV Budget을 도입하여(H2O, TOVA) 두면 동적으로 퀄리티를 조절하지 못하게 되기 때문에 문제가 됨.
- Efficient Reasoning 자체를 타겟으로 한 방법은 없었을까?
- 요약 모델을 이용해서 크기를 유지하는 방법 등이 있었지만
- 모델을 하나 더 둬야 하는 게 귀찮고, Dramatic한 효과가 없다는 점이 문제였다.
Reasoning Path compression
Semantic Sparsity
- 1K~8K의 토큰을 deepseek Qwen으로 확인함
Mechanism
- Periodic Compression
- Decoding Steps에 대비하여 KV Chace의 숫자를 적게 유지하도록 KV Puning을 수행하게 된다(RPC Algorithm 제안).
Evaluations
-DeepSeek-R1-Distill-Qwen-7B
-QwQ-32B
-IFEval (Instruction Following)
-AIME 2024 (Math)
-LiveCodeBench v5 (Coding)
-과한 RPC는 IFEval 등의 짧은 벤치마크에서 오히려 아웃풋 사이즈를 늘리는 결과를 보여줌.
-아웃풋 사이즈는 10% 이상 차이가 난 항목은 없음.
-Throughput이 2.5 배 이상 늘어난 점이 주목할 만함.
Open Challenges
- 한계로는 멀티배치 시나리오에서의 추론 시간 단축의 한계가 있음.
- 일반화된 모델 구현이 어려움. 추론 모드와 일반 모드가 스위칭 되는 등의 컨셉을 가진 모델이 많기 때문임.
- 추론 스텝을 인지하는 압축이 필요함.
- 중요도 점수 평가의 성능 향상이 필요함.
- 실용 LLM 서빙 프레임워크가 통합되어야 함.
리벨리온 Chief Software Architect 김홍석 박사님