LoRA + PEFT

seongyun·2025년 8월 4일

Hancom Project

목록 보기

11/12

DeepSeek Coder 6.7B Instruct 모델의 4-bit 양자화와 LoRA + PEFT 사용 이유

메모리 제약과 양자화의 필요성

DeepSeek Coder 6.7B Instruct 모델은 67억 개의 파라미터를 가진 대규모 언어 모델이다. 이 모델을 FP16 정밀도로 로드할 경우 약 13.4GB의 VRAM이 필요하며, 전체 파인튜닝을 수행하려면 훨씬 더 많은 메모리가 필요하다.

4-bit 양자화의 메모리 절약 효과:

4-bit 양자화 시 모델 크기가 약 3.8GB로 감소
이론적으로 FP16 대비 약 75%의 메모리 절약 효과를 제공
소비자용 GPU(8-12GB VRAM)에서도 실행 가능

4-bit 양자화의 기술적 한계

정확도 손실 문제

4-bit 양자화는 메모리 효율성을 제공하지만 몇 가지 중요한 한계점이 있다:

1. 표현 능력의 한계

4-bit는 16개의 서로 다른 값만 표현 가능하다.
원래 32-bit 부동소수점의 정밀도에 비해 크게 제한한다.

2. 가중치 분포의 손실

모델의 가중치는 일반적으로 정규분포를 따른다.
양자화 과정에서 미세한 가중치 변화가 손실된다.

3. 그라디언트 계산의 복잡성

양자화된 가중치로는 직접적인 역전파가 어렵다.
4-bit 모델에서 전체 파인튜닝은 불안정하다.

LoRA 기법의 이론적 배경

Low-Rank Decomposition 원리

LoRA는 가중치 업데이트가 낮은 내재적 차원(low intrinsic dimension)을 가진다는 가설에 기반한다:

수학적 표현:

W = W₀ + ΔW = W₀ + BA

여기서:

W₀: 사전 학습된 고정 가중치
ΔW: 가중치 업데이트 (BA로 분해)
B ∈ ℝⁿˣʳ, A ∈ ℝʳˣᵐ (r << min(n,m))

파라미터 효율성:

원래 파라미터 수: n × m
LoRA 파라미터 수: (n + m) × r
일반적으로 r = 1~8로 설정하여 99% 이상의 파라미터 절약

선형대수학적 근거

LoRA의 핵심은 특이값 분해(SVD) 이론에 기반한다:

대부분의 행렬은 낮은 rank로 근사 가능하다.
학습 과정에서의 가중치 변화도 마찬가지로 낮은 rank를 가진다.

PEFT의 역할과 필요성

Parameter-Efficient Fine-Tuning의 개념

PEFT는 전체 모델 파라미터 중 극소수만 학습하는 방법론이다:

주요 특징:

사전 학습된 모델의 대부분 파라미터를 고정
작은 어댑터 레이어만 추가하여 학습
2-5%의 파라미터만으로도 전체 파인튜닝과 유사한 성능 달성

Catastrophic Forgetting 방지

양자화된 모델에서 전체 파인튜닝을 시도할 경우 재앙적 망각(Catastrophic Forgetting) 문제가 발생한다:

문제 상황:

새로운 태스크 학습 시 이전 지식이 손실
양자화로 인한 정보 손실과 결합되어 더욱 심각

PEFT의 해결책:

원본 지식을 보존하면서 새로운 태스크에 적응
안정성-가소성 딜레마를 효과적으로 해결

QLoRA: 4-bit 양자화와 LoRA의 결합

QLoRA의 핵심 혁신

QLoRA는 세 가지 기술적 혁신을 제공한다:

1. NF4 (4-bit NormalFloat) 양자화

정규분포에 최적화된 4-bit 데이터 타입
정보 이론적으로 최적인 양자화 구간 제공

2. Double Quantization

양자화 상수 자체를 다시 양자화
추가 메모리 절약 효과 제공

3. Paged Optimizers

메모리 스파이크 관리
GPU 메모리 부족 상황 방지

실용적 이점

메모리 효율성:

65B 모델을 48GB GPU에서 파인튜닝 가능
DeepSeek Coder 6.7B의 경우 약 8-12GB로 파인튜닝 가능

성능 유지:

16-bit 전체 파인튜닝과 동등한 성능
ChatGPT 성능의 99.3% 달성

이론적 근거 종합

1. 메모리 제약의 물리적 한계

6.7B 모델의 전체 파인튜닝은 40-80GB 메모리 필요
대부분의 소비자용 하드웨어에서 불가능

2. 양자화의 정보 손실 보상

4-bit 양자화는 불가피한 정보 손실 발생
LoRA는 중요한 업데이트만 고정밀도로 학습

3. 학습 안정성 확보

양자화된 가중치의 직접 업데이트는 불안정
LoRA는 안정적인 저차원 업데이트 제공

4. 태스크 적응성 유지

PEFT는 원본 지식 보존과 새로운 태스크 학습을 동시에 달성
도메인 특화 지식을 효율적으로 학습

결론

DeepSeek Coder 6.7B Instruct 모델에서 4-bit 양자화와 LoRA + PEFT를 함께 사용하는 것은 물리적 메모리 제약, 양자화로 인한 정보 손실, 학습 안정성, 태스크 적응성 등의 복합적 문제를 해결하기 위한 필수적 선택이다. 이러한 기법들의 결합은 제한된 하드웨어 자원에서도 대규모 언어 모델의 효과적인 파인튜닝을 가능하게 만드는 핵심 기술이다.

seongyun

이전 포스트

Fine-tuning + Continual Learning 동시 진행 분석 결과

다음 포스트