Knowledge Injection via Prompt Distillation

하임·2026년 1월 9일

논문 요약: Knowledge Injection via Prompt Distillation

1. 개요

본 논문은 대형 언어 모델(LLM)에서 새로운 지식을 주입하는 방법으로 기존의 미세 조정(fine-tuning) 및 검색 증강 생성(RAG, Retrieval-Augmented Generation) 기법과는 차별화된 프롬프트 증류(Prompt Distillation) 기법을 제안한다.

프롬프트 증류는 자가 증류(self-distillation) 방식으로, 특정 지식을 포함한 프롬프트를 제공하는 교사 모델(Teacher Model) 의 출력 분포를 학생 모델(Student Model) 이 학습하는 방식이다.

논문의 주요 기여점은 다음과 같다:

프롬프트 증류(Prompt Distillation) 라는 새로운 지식 주입 기법을 제안
RAG 수준의 성능을 달성할 수 있음을 실험을 통해 입증
성능 분석 및 요소 분해 실험을 수행하여 프롬프트 증류의 성능 향상 요인을 분석

2. 연구 배경 및 기존 방법의 한계

미세 조정 (Fine-Tuning)
- 특정 도메인이나 지식을 모델의 가중치에 내재화하는 방법
- 하지만 RAG와 비교했을 때, 새로운 정보를 주입하는 효과가 제한적
검색 증강 생성 (RAG)
- 외부 데이터베이스에서 필요한 정보를 검색하여 LLM의 입력 프롬프트로 제공
- 즉각적인 최신 정보 반영 가능하지만, 검색 비용이 크며 맥락이 길어질수록 모델의 성능이 저하될 가능성이 있음
지식 증류(Knowledge Distillation)
- 기존의 교사-학생 모델 구조에서, 학생 모델이 교사 모델의 출력을 학습하는 방식
- 하지만 기존 연구에서는 교사 모델과 학생 모델 간의 지식 표현 차이로 인해 효과적인 학습이 어려움

3. 프롬프트 증류(Prompt Distillation)

개념
- 교사 모델(Teacher Model)이 새로운 지식이 포함된 프롬프트를 이용해 질문-답변 데이터를 생성
- 학생 모델(Student Model)은 교사 모델이 생성한 출력 분포(답변의 토큰 확률 분포)를 학습하여 새로운 지식을 모델의 가중치에 내재화
- LoRA(Low-Rank Adaptation) 어댑터를 활용하여 모델 가중치를 효율적으로 업데이트
훈련 절차
- 데이터 생성: 교사 모델이 새로운 지식이 포함된 질문-답변 데이터(q, a)를 생성
- 프롬프트 증류 학습: 학생 모델은 해당 질문에 대해 프롬프트 없이 교사 모델과 동일한 답변을 생성하도록 학습
- KL 발산 손실(KL Divergence Loss) 를 활용하여 학생 모델이 교사 모델의 확률 분포를 최대한 모방하도록 학습
기존 미세 조정과의 차이점
- 기존 미세 조정(SFT, Supervised Fine-Tuning) 은 특정 정답을 강제 학습
- 반면 프롬프트 증류는 확률 분포 자체를 학습, 더 유연하고 일반화 가능성이 높은 모델을 학습할 수 있음

4. 실험 및 결과

데이터셋
- Squadshift 데이터셋 변형 사용 (Wikipedia, NYT, Amazon, Reddit 문서 기반)
- 질문을 재구성하여 문맥이 없이도 답변할 수 있도록 변형
비교 실험
- 프롬프트 증류 vs 기존 방법 (SFT, RAG)
- 평가 지표: 정답률(Accuracy), 데이터 효율성(Data Efficiency)
- 결과
  - 프롬프트 증류는 기존 SFT보다 월등히 높은 성능
  - RAG와 유사한 성능을 보이며, RAG+프롬프트 증류 조합은 최고의 성능을 기록
성능 분석
- 데이터 양 대비 성능 비교
  - 프롬프트 증류는 SFT 대비 3~9배 적은 데이터로도 동일한 성능을 달성
- 온도 하이퍼파라미터(Temperature) 실험
  - 높은 온도(T=2)에서 가장 좋은 성능을 보임 (다양한 답변 학습 효과)
- RAG와의 조합 실험
  - 프롬프트 증류 + RAG 조합이 최고의 성능 달성

5. 결론 및 향후 연구 방향

결론
- 프롬프트 증류 기법이 새로운 지식을 효과적으로 주입할 수 있음을 입증
- 기존 SFT보다 훨씬 더 적은 데이터로 높은 성능을 달성 가능
- RAG 없이도 RAG 수준의 성능을 보이며, RAG와 함께 사용하면 더욱 강력한 성능
향후 연구 방향
- 에이전트형 LLM 연구: 모델이 자체적으로 데이터를 수집하고 지속적으로 학습할 수 있도록 적용 가능
- 프롬프트 증류 + RAG 조합 최적화: 검색된 문서와 증류된 정보를 결합하여 더욱 강력한 지식 주입 방법 연구
- 질문 생성 최적화: 보다 효과적인 질문 생성 기법을 개발하여 프롬프트 증류의 성능을 극대화

🔍 요약

목적: 새로운 지식을 효과적으로 주입하는 방법으로 프롬프트 증류(Prompt Distillation) 기법을 제안
핵심 아이디어: 교사 모델의 지식이 포함된 프롬프트 기반 출력 분포를 학생 모델이 학습
실험 결과:
- SFT 대비 높은 성능, RAG와 유사한 성능
- 데이터 효율성 증가, 적은 데이터로도 효과적인 학습
- RAG와 결합 시 최고의 성능
기여점:
1. 새로운 지식 주입 기법으로 프롬프트 증류 제안
2. SFT를 대체할 수 있는 강력한 Fine-Tuning 방법으로 검증
3. RAG 없이도 RAG 수준의 성능을 달성하며, RAG와 결합하면 더욱 우수한 성능 가능

이 논문은 RAG 기반 접근법의 한계를 보완하면서도 미세 조정의 효율성을 높이는 새로운 방법론을 제시하였으며, 특히 실제 활용 가능한 새로운 Fine-Tuning 기법을 연구하고자 하는 사용자에게 매우 유용할 것으로 보입니다. 🚀

하임

NLP 공부합니당

이전 포스트

MergeME: Model Merging Techniques for Homogeneous and Heterogeneous MoEs

다음 포스트