PEFT(Parameter-Efficient Fine-Tuning)는 거대한 사전학습 모델의 “일부 가중치만” 학습해 VRAM·시간·비용을 줄이면서도 목적 작업 성능을 크게 끌어올리는 방법
• 리소스 제약: 수십억(7B~70B) 파라미터 전체 미세튜닝은 VRAM/시간/전력 비용이 큼 → LoRA/QLoRA, Adapters, Prefix/P-tuning 등으로 학습 파라미터를 0.12% 수준으로 축소.
• 빠른 반복/버전 관리: 고객/과업별 모델을 여러 개 운영해야 할 때, 어댑터만 교체하면 A/B 및 롤백이 쉬움.
• 카타스트로픽 포겟팅 완화: 전체 가중치를 크게 흔들지 않고 로컬한 변형만 학습해 기존 능력 훼손을 줄임.
• 프라이버시/규제: 폐쇄 모델(예: 상용 API 기반) 또는 온프레미스에서 베이스는 고정, 어댑터만 학습/보관해 거버넌스 용이.
• 소데이터 세팅: 도메인 특화 코퍼스가 작을 때 저용량 어댑터 학습이 과적합 리스크/비용 대비 효율적.
• 도메인 적응(법률/의료/산업용 매뉴얼): 용어·양식·톤을 맞출 때 → LoRA/IA³/Adapters 권장.
• 형식 강제 작업(요약/분류/추출/체크리스트 생성): 출력 포맷·스타일 고정 → Prefix-tuning/P-tuning v2도 효율적.
• 다변수 운영(고객별/언어별/제품별 버전): 어댑터 묶음으로 멀티-헤드 제품군 운영.
• 저예산/단일 GPU(≤24GB) 학습: QLoRA(4-bit)로 7B~13B도 실전 가능.
• 지속적 업데이트(주간 규칙/용어 변경): 얇은 어댑터만 재학습해 빠르게 배포.
• 온디바이스/엣지 추론: 합친(merged) LoRA 가중치로 추론 비용 증가 없이 배포 가능.
• LoRA/QLoRA: 선형층에 저랭크( rank r ) 어댑터 추가. 효용/일반성 최고, QLoRA는 4-bit 양자화로 학습 메모리 절감.
• Adapters: 층 사이 모듈 삽입(병렬/직렬). 모듈 스왑으로 버전 관리 용이.
• (Prefix|P-)tuning v2: 가상 프롬프트(연속 벡터)만 학습, 파라미터 최소.
• IA³: 주로 스케일 파라미터만 학습(가벼움).
• GPU가 24GB 이하 → QLoRA 우선.
• 버전이 많다/고객별 커스터마이즈 → Adapters/LoRA.
• 정형 출력 중심 → Prefix/P-tuning +(필요 시) 얕은 LoRA.
• 데이터 < 수백만 토큰 → PEFT 먼저, 성능 한계 시 범위를 늘림.
• 레이어 선택: 디코더 계열은 보통 q_proj, k_proj, v_proj, o_proj, up/down/gate_proj에 적용.
• 랭크 r: 4/8/16 소그리드로 튜닝(일반 텍스트 816, 코드/수학 등 복잡 구조 1632 시도).
