뛰어난 성능을 내는 거대 AI 모델은 수많은 파라미터로 이루어져 있기 때문에 학습할 때 자원(GPU, 전력 등)이 많이 필요하고 학습 시간도 오래 걸린다. 그러나 일반적인 경우에는 그만큼의 자원과 시간을 확보하기 어렵다. 그래서 거대 모델을 경량화하려는 노력이 많이 이루어지고 있다. 모델 경량화는 AI 모델의 크기를 줄이고 계산 비용을 감소시키면서도, 성능을 최대한 유지하는 기술이다. 모델 경량화를 통해 자원과 시간을 아낄 수 있을 뿐만 아니라 추론 시간도 빨라지기 때문에 자율주행 처럼 실시간 처리가 필요한 태스크에 사용할 수 있다.
모델 경량화의 기법에는 크게 Pruning (가지치기), Knowledge Distillation (지식 증류), Quantization (양자화)가 있다.

학습된 모델에서 중요도가 낮은 뉴런이나 연결(시냅스)을 제거하여 모델의 크기와 계산 비용을 줄이는 기법
고성능의 Teacher 모델로부터 지식을 전달 받아서 Student 모델을 학습 시키는 기법
모델의 가중치와 활성화를 낮은 비트 정밀도로 변환하여 저장 및 계산 효율성을 높이는 기법