# Model Compression
Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding
computationally intensivememory intensivepruningtrained quantizationHuffman codingpruning -> quantization -> Huffman coding전체: storage requirements를 3

[논문리뷰] 'Compressing Neural Networks: Towards Determining the Optimal Layer-wise Decomposition' 리뷰
안녕하세요, 밍기뉴와제제입니다. 2022년의 마지막 리뷰가 되겠네요. 이번에 리뷰할 논문은 'Compressing Neural Networks: Towards Determining the Optimal Layer-wise Decomposition'입니다.
Model Compression Survey
Methods 모델 압축을 위한 기본적인 접근 방법 가지치기(Pruning) 1) 학습 후 불필요한 부분 제거하는 방식 가중치의 크기에 기반한 제거, attention head 제거, layer 제거 2) 학습 중 prunability를 제거하기 위
Quantization 101
edgde device에는 gpu가 없는 경우가 많다. cpu는 int8을 활용하는데 cpu에 모델을 실으려면 모델이 가진 자료형을 조작해야 한다. 이 과정을 quantization이라고 한다. 세상에 없던 기술은 아니고 이미지를 압축하는 원리를 활용했다.
Knowledge Distillation
모델이 발전할수록 모델이 요구하는 메모리와 용량이 커진다. 실시간으로 응답해야 하거나 개인정보처럼 민감한 정보를 처리하는 경우라면 반드시 온디바이스에서 처리해야 한다. 문제는 온디바이스의 메모리와 용량은 서버만큼 넉넉하지 않다.
[CNN Networks] 9. Deep Compression 리뷰
Pruning과 Quantization을 활용해 모델 압축을 하는 Deep compression에 대해 정리한 내용입니다.