Fine-tuning의 모든 것: 전략별 차이점과 선택 기준 정리

Bean·2025년 6월 24일

AI학습전략 Adapter Lora finetuning llm튜닝 딥러닝 머신러닝 전이학습

0

인공지능

목록 보기

61/134

Fine-tuning, 왜 다양할까?

많은 분들이 Fine-tuning이라고 하면 그냥 "기존 모델을 조금 더 학습시키는 것"으로만 생각하지만, 실제로는 다양한 전략이 존재합니다.
특히, 모든 파라미터를 학습하는 것뿐 아니라 일부만 학습하거나, 추가 모듈만 학습하는 방식도 있습니다.

1) Fine-tuning이란?

Fine-tuning이란, 사전학습(pretrained)된 모델을 특정 태스크에 맞춰 추가 학습시키는 과정입니다.

하지만 이때 "어디까지 학습할 것인가"에 따라 여러 방식으로 나뉘게 됩니다.

2) Fine-tuning 전략별 정리

2.1) Full Fine-tuning

Transformer 본체와 출력층 모두 학습
가장 성능이 좋지만, 연산량과 메모리 소모 큼
대규모 데이터, 자원이 충분한 경우에 적합
예시: 원래 BERT 학습 방식

2.2) Head-only Fine-tuning

Transformer 본체는 고정(freeze)
마지막 Linear layer(출력층)만 학습
학습 속도 빠르고, 메모리 효율 좋음
다만 일반화 성능은 다소 제한적
소규모 데이터셋에 적합

2.3) Layer-wise Freezing/Unfreezing

특정 상위층만 선택적으로 학습
혹은 학습을 점진적으로 풀어나가는 방식
유연하고 실험적인 전략

예시:

상위 2개 층만 학습 (나머지 고정)  
=> 또는 처음엔 head만 학습 → 이후 점진적 전체 fine-tuning

2.4) Adapter-based Fine-tuning

Transformer 본체는 그대로 사용
각 층 사이에 작은 adapter 모듈을 삽입
adapter만 학습, 나머지는 freeze
효율적이며 다중 태스크 전환에도 유리
예시: AdapterHub, T5 응용

2.5) LoRA (Low-Rank Adaptation)

weight의 일부만 저차원으로 업데이트
본체는 freeze
매우 적은 파라미터만 학습하며, 최신 LLM 튜닝에서 인기
성능과 효율성의 균형이 좋음
예시: Alpaca, Vicuna 등

3) 언제 어떤 방식을 써야 할까?

사용 상황	추천 Fine-tuning 전략
💾 데이터 많고 자원 충분	Full fine-tuning
⚡ 빠른 실험 필요, 자원 부족	Head-only, Adapter
🔁 다중 태스크 전환 필요	Adapter, LoRA
📱 모바일/온디바이스 경량화	Head-only, 또는 Distillation 병행

4) 요약표

Fine-tuning 방식	본체 학습 여부	특징
Full	✅ 전체 학습	성능 최상, 자원 소모 큼
Head-only	❌ 본체 고정, head만 학습	빠르고 경량, 적응력 제한
Adapter	❌ 본체 고정, adapter만 학습	확장성 우수, 태스크 전환 쉬움
LoRA	❌ 본체 고정, delta만 학습	최신 트렌드, 고성능 + 효율적
Layer-wise	🔄 일부 층만 학습	중간 절충 전략, 실험적 응용에 유리

AI developer

이전 포스트

BERT와 GPT의 숨은 비밀, Segment Embedding 쉽게 이해하기

다음 포스트

GPT-1 직접 학습해보기: GPU 사양부터 학습 시간까지 현실 가이드

0개의 댓글