Fine-tuning의 모든 것: 전략별 차이점과 선택 기준 정리

Bean·2025년 6월 24일
0

인공지능

목록 보기
61/123

Fine-tuning, 왜 다양할까?

많은 분들이 Fine-tuning이라고 하면 그냥 "기존 모델을 조금 더 학습시키는 것"으로만 생각하지만, 실제로는 다양한 전략이 존재합니다.
특히, 모든 파라미터를 학습하는 것뿐 아니라 일부만 학습하거나, 추가 모듈만 학습하는 방식도 있습니다.


1) Fine-tuning이란?

Fine-tuning이란, 사전학습(pretrained)된 모델을 특정 태스크에 맞춰 추가 학습시키는 과정입니다.

하지만 이때 "어디까지 학습할 것인가"에 따라 여러 방식으로 나뉘게 됩니다.


2) Fine-tuning 전략별 정리

2.1) Full Fine-tuning

  • Transformer 본체와 출력층 모두 학습
  • 가장 성능이 좋지만, 연산량과 메모리 소모 큼
  • 대규모 데이터, 자원이 충분한 경우에 적합
  • 예시: 원래 BERT 학습 방식

2.2) Head-only Fine-tuning

  • Transformer 본체는 고정(freeze)
  • 마지막 Linear layer(출력층)만 학습
  • 학습 속도 빠르고, 메모리 효율 좋음
  • 다만 일반화 성능은 다소 제한적
  • 소규모 데이터셋에 적합

2.3) Layer-wise Freezing/Unfreezing

  • 특정 상위층만 선택적으로 학습
  • 혹은 학습을 점진적으로 풀어나가는 방식
  • 유연하고 실험적인 전략

예시:

상위 2개 층만 학습 (나머지 고정)  
=> 또는 처음엔 head만 학습 → 이후 점진적 전체 fine-tuning

2.4) Adapter-based Fine-tuning

  • Transformer 본체는 그대로 사용
  • 각 층 사이에 작은 adapter 모듈을 삽입
  • adapter만 학습, 나머지는 freeze
  • 효율적이며 다중 태스크 전환에도 유리
  • 예시: AdapterHub, T5 응용

2.5) LoRA (Low-Rank Adaptation)

  • weight의 일부만 저차원으로 업데이트
  • 본체는 freeze
  • 매우 적은 파라미터만 학습하며, 최신 LLM 튜닝에서 인기
  • 성능과 효율성의 균형이 좋음
  • 예시: Alpaca, Vicuna 등

3) 언제 어떤 방식을 써야 할까?

사용 상황추천 Fine-tuning 전략
💾 데이터 많고 자원 충분Full fine-tuning
⚡ 빠른 실험 필요, 자원 부족Head-only, Adapter
🔁 다중 태스크 전환 필요Adapter, LoRA
📱 모바일/온디바이스 경량화Head-only, 또는 Distillation 병행

4) 요약표

Fine-tuning 방식본체 학습 여부특징
Full✅ 전체 학습성능 최상, 자원 소모 큼
Head-only❌ 본체 고정, head만 학습빠르고 경량, 적응력 제한
Adapter❌ 본체 고정, adapter만 학습확장성 우수, 태스크 전환 쉬움
LoRA❌ 본체 고정, delta만 학습최신 트렌드, 고성능 + 효율적
Layer-wise🔄 일부 층만 학습중간 절충 전략, 실험적 응용에 유리

profile
AI developer

0개의 댓글