PEFT가 필요한 이유

Youngho LEE·2025년 9월 7일

PEFT(Parameter-Efficient Fine-Tuning)는 거대한 사전학습 모델의 “일부 가중치만” 학습해 VRAM·시간·비용을 줄이면서도 목적 작업 성능을 크게 끌어올리는 방법

왜 필요한가(문제 → 해법)

• 리소스 제약: 수십억(7B~70B) 파라미터 전체 미세튜닝은 VRAM/시간/전력 비용이 큼 → LoRA/QLoRA, Adapters, Prefix/P-tuning 등으로 학습 파라미터를 0.12% 수준으로 축소.
• 빠른 반복/버전 관리: 고객/과업별 모델을 여러 개 운영해야 할 때, 어댑터만 교체하면 A/B 및 롤백이 쉬움.
• 카타스트로픽 포겟팅 완화: 전체 가중치를 크게 흔들지 않고 로컬한 변형만 학습해 기존 능력 훼손을 줄임.
• 프라이버시/규제: 폐쇄 모델(예: 상용 API 기반) 또는 온프레미스에서 베이스는 고정, 어댑터만 학습/보관해 거버넌스 용이.
• 소데이터 세팅: 도메인 특화 코퍼스가 작을 때 저용량 어댑터 학습이 과적합 리스크/비용 대비 효율적.

언제 특히 효과적인가(상황 별 가이드)

• 도메인 적응(법률/의료/산업용 매뉴얼): 용어·양식·톤을 맞출 때 → LoRA/IA³/Adapters 권장.
• 형식 강제 작업(요약/분류/추출/체크리스트 생성): 출력 포맷·스타일 고정 → Prefix-tuning/P-tuning v2도 효율적.
• 다변수 운영(고객별/언어별/제품별 버전): 어댑터 묶음으로 멀티-헤드 제품군 운영.
• 저예산/단일 GPU(≤24GB) 학습: QLoRA(4-bit)로 7B~13B도 실전 가능.
• 지속적 업데이트(주간 규칙/용어 변경): 얇은 어댑터만 재학습해 빠르게 배포.
• 온디바이스/엣지 추론: 합친(merged) LoRA 가중치로 추론 비용 증가 없이 배포 가능.

PEFT 기법 스냅샷

•	LoRA/QLoRA: 선형층에 저랭크( rank r ) 어댑터 추가. 효용/일반성 최고, QLoRA는 4-bit 양자화로 학습 메모리 절감.
•	Adapters: 층 사이 모듈 삽입(병렬/직렬). 모듈 스왑으로 버전 관리 용이.
•	(Prefix|P-)tuning v2: 가상 프롬프트(연속 벡터)만 학습, 파라미터 최소.
•	IA³: 주로 스케일 파라미터만 학습(가벼움).

선택 체크리스트

•	GPU가 24GB 이하 → QLoRA 우선.
•	버전이 많다/고객별 커스터마이즈 → Adapters/LoRA.
•	정형 출력 중심 → Prefix/P-tuning +(필요 시) 얕은 LoRA.
•	데이터 < 수백만 토큰 → PEFT 먼저, 성능 한계 시 범위를 늘림.
•	레이어 선택: 디코더 계열은 보통 q_proj, k_proj, v_proj, o_proj, up/down/gate_proj에 적용.
•	랭크 r: 4/8/16 소그리드로 튜닝(일반 텍스트 816, 코드/수학 등 복잡 구조 1632 시도).

Youngho LEE

개발자

이전 포스트

모델 크기와 성능 둔화

다음 포스트