
HuggingFace의 DeepSeek-R1 모델명을 보면 R1-Distill-Qwen과 같은 접미어가 붙어 있는 것을 볼 수 있다.
Distill은 영어로 "증류하다"라는 뜻이며, 딥러닝에서 Knowledge Distillation(지식 증류)이라는 개념으로 사용된다. 즉, 큰 모델(Teacher Network)에서 작은 모델(Student Network)로 지식을 전이하는 과정을 의미한다.
Knowledge Distillation은 NIPS 2014 workshop에서 발표된 논문 “Distilling the Knowledge in a Neural Network”에서 처음 등장했다.
오늘날 AI 모델들은 OpenAI의 ChatGPT, Google Bard와 같은 대형 모델들이 있다. 하지만 개인이 이러한 거대한 모델을 학습하고 배포하는 것은 현실적으로 어렵다. 따라서 작은 규모의 프로젝트에서도 효율적인 AI 모델을 사용할 수 있도록 Knowledge Distillation 기법이 활용된다.
만약 AI 모델을 선택해야 하는 상황에서 다음과 같은 옵션이 있다면?
이 경우, 소형 모델 S는 성능은 조금 낮지만 속도가 빠르고 실용적이다. 하지만 Knowledge Distillation을 사용하면 대형 모델 T의 성능을 소형 모델 S에 일부 전이하여 더 빠르면서도 성능이 높은 모델을 만들 수 있다.

Knowledge Distillation은 대형 모델의 성능을 유지하면서도 소형 모델의 속도와 효율성을 높이는 기법이다. 이러한 방법을 통해 최신 AI 모델들은 성능과 효율성의 균형을 맞추며 발전하고 있다.