Dialogue Summarization | 일상 대화 요약

김두환 (라도)·2025년 8월 7일

1. 개요

1.1 LoRA란 무엇인가?

LoRA(Low-Rank Adaptation)는 대규모 언어 모델(LLM)을 효율적으로 파인튜닝하기 위한 혁신적인 기술입니다. Microsoft Research에서 개발된 이 방법은 거대한 사전학습 모델의 모든 파라미터를 업데이트하는 대신, 작은 학습 가능한 행렬을 추가하여 모델을 특정 태스크에 적응시킵니다.

1.2 왜 LoRA가 필요한가?

하드웨어 제약: GPT-4, LLaMA-2 70B 같은 최신 모델들은 전체 파인튜닝에 수백 GB의 GPU 메모리 필요
비용 문제: 클라우드 GPU 비용이 시간당 수십 달러에 달함
접근성: 대부분의 연구자와 개발자들이 고성능 하드웨어에 접근 불가
유연성: 여러 태스크를 위한 다중 모델 관리의 어려움

1.3 간단한 비유로 이해하기

LoRA는 거대한 백과사전(사전학습 모델)에 포스트잇(LoRA 어댑터)을 붙이는 것과 같습니다.

백과사전은 그대로 유지 (원본 모델 고정)
필요한 부분에만 추가 정보 부착 (작은 어댑터 학습)
언제든 제거 가능 (어댑터 교체/제거 용이)
여러 용도로 사용 가능 (다중 태스크 지원)

2. LoRA의 핵심 개념과 원리

2.1 기본 작동 원리

수식적 표현

기존 파인튜닝: W = W₀ + ΔW
LoRA: W = W₀ + BA

여기서,

W₀: 사전학습된 가중치 (고정)
B ∈ ℝ^(d×r), A ∈ ℝ^(r×k): LoRA 분해 행렬
r ≪ min(d,k): 낮은 rank

2.2 Low-Rank의 의미

Rank(계수) 는 행렬의 선형 독립인 행/열의 최대 개수를 의미합니다.

Full-rank: 모든 차원을 활용
Low-rank: 제한된 차원만 사용
의미: 모델 적응이 실제로는 낮은 차원의 부공간에서 일어남

예시: 1000×1000 행렬, rank=10

원래: 1,000,000개 파라미터
LoRA: 20,000개 파라미터 (50배 압축)

LoRA의 파라미터 압축 계산을 자세히 설명드리겠습니다.

원본 행렬 W

크기: 1000 × 1000
파라미터 수: 1000 × 1000 = 1,000,000개

LoRA 분해 (rank=10)

W ≈ BA로 분해
B 행렬: 1000 × 10 = 10,000개 파라미터
A 행렬: 10 × 1000 = 10,000개 파라미터
총 LoRA 파라미터: 10,000 + 10,000 = 20,000개

압축률 계산

압축률 = 원본 파라미터 수 / LoRA 파라미터 수
       = 1,000,000 / 20,000
       = 50배

일반화된 공식

원본 행렬: d × k → d×k개 파라미터
LoRA 분해: B(d×r) + A(r×k) → r×(d+k)개 파라미터
압축률 = d×k / r×(d+k)

이 예시에서는 d=k=1000, r=10이므로:

압축률 = (1000×1000) / (10×2000) = 1,000,000 / 20,000 = 50

즉, 원래 100만개의 파라미터를 저장해야 했던 것을 2만개의 파라미터만으로 근사할 수 있어서 50배 압축이 됩니다.

2.3 핵심 장점

효율성: 0.1-1%의 파라미터만 학습
품질: Full fine-tuning의 90-100% 성능 유지
유연성: 다중 어댑터 관리 용이
속도: 3-10배 빠른 학습

3. Transformer 아키텍처에서의 LoRA 적용 상세

3.1 Transformer의 구성 요소와 LoRA 적용 위치

Transformer는 크게 Multi-Head Attention과 Feed-Forward Network 블록으로 구성됩니다. LoRA는 이 중 선형 변환(Linear Transformation)이 일어나는 모든 위치에 적용 가능합니다.

3.1.1 Multi-Head Attention에서의 LoRA

표준 Attention 메커니즘

Q = XW_Q  (Query projection)
K = XW_K  (Key projection)
V = XW_V  (Value projection)
O = Attention(Q,K,V)W_O  (Output projection)

LoRA 적용 후

Q = X(W_Q + B_Q A_Q) = XW_Q + X(B_Q A_Q)
K = X(W_K + B_K A_K) = XW_K + X(B_K A_K)
V = X(W_V + B_V A_V) = XW_V + X(B_V A_V)
O = Attention(Q,K,V)(W_O + B_O A_O)

3.1.2 각 투사 행렬의 역할과 LoRA 효과

Query (W_Q) LoRA

어떤 정보에 주목할지 결정하는 쿼리 생성
LoRA 적용 시: 태스크별 주목 패턴 학습
예: 감정 분석 태스크에서는 감정 표현에 더 주목

Key (W_K) LoRA

정보가 어떻게 검색되어야 하는지 결정
LoRA 적용 시: 도메인 특화 검색 패턴 학습
예: 의료 도메인에서는 증상-질병 관계에 특화

Value (W_V) LoRA

실제로 전달될 정보 내용 결정
LoRA 적용 시: 태스크별 정보 표현 조정
예: 요약 태스크에서는 핵심 정보만 강조

Output (W_O) LoRA

Attention 결과를 다음 레이어로 투사
LoRA 적용 시: 태스크별 출력 형식 조정

3.2 Feed-Forward Network에서의 LoRA

표준 FFN 구조

FFN(x) = W_2 * ReLU(W_1 * x + b_1) + b_2

LoRA 적용

W_1 → W_1 + B_1 A_1  (up-projection)
W_2 → W_2 + B_2 A_2  (down-projection)

FFN에서 LoRA의 효과

W_1 (확장): 특징을 고차원으로 투사 → 태스크별 특징 추출
W_2 (축소): 다시 원래 차원으로 → 태스크별 특징 선택

3.3 레이어별 LoRA 적용 전략

3.3.1 깊이에 따른 적용

하위 레이어 (1-6층)

기본적인 언어 특징 학습
LoRA rank를 낮게 설정 (r=2-4)
주로 토큰 수준의 적응

중간 레이어 (7-18층)

구문 및 의미 관계 학습
중간 rank 설정 (r=8-16)
문장 수준의 패턴 적응

상위 레이어 (19-32층)

고수준 추론 및 태스크 특화
높은 rank 가능 (r=16-64)
태스크별 출력 형식 조정

3.3.2 선택적 레이어 적용

# 예: GPT 모델에서 선택적 LoRA 적용
lora_config = {
    "target_modules": [
        "transformer.h.*.attn.c_attn",    # Attention QKV
        "transformer.h.*.attn.c_proj",    # Attention output
        "transformer.h.*.mlp.c_fc",       # FFN up-projection
        "transformer.h.*.mlp.c_proj"      # FFN down-projection
    ],
    "layers_to_apply": [20, 21, 22, 23, 24]  # 상위 5개 레이어만
}

3.4 구체적인 계산 과정 예시

입력 데이터 흐름:

입력 임베딩: X ∈ ℝ^(batch_size × seq_len × d_model)

Attention 계산 (예: d_model=768, r=16)

원본: Q = X @ W_Q  [seq_len × 768] @ [768 × 768] = [seq_len × 768]
LoRA: Q_lora = X @ A_Q @ B_Q  [seq_len × 768] @ [768 × 16] @ [16 × 768]
최종: Q_final = Q + Q_lora * (α/r)

메모리 사용량
- 원본 W_Q: 768 × 768 = 589,824 파라미터
- LoRA (A_Q + B_Q): 768 × 16 + 16 × 768 = 24,576 파라미터
- 압축률: 24배

3.5 Multi-Head 구조에서의 LoRA

# 12개 헤드를 가진 Attention의 경우
for head in range(12):
    # 각 헤드별로 독립적인 LoRA 적용 가능
    Q_head = X @ W_Q[head] + X @ B_Q[head] @ A_Q[head]

# 또는 모든 헤드에 공유 LoRA
Q_all_heads = X @ W_Q_combined + X @ B_Q_shared @ A_Q_shared

3.6 실제 구현에서의 최적화

3.6.1 연산 순서 최적화

# 비효율적: 먼저 BA를 계산
lora_weight = B @ A  # [d × r] @ [r × k] = [d × k]
output = input @ (W + lora_weight)

# 효율적: 순차적 계산
output = input @ W + (input @ A) @ B  # r이 작을 때 더 효율적

3.6.2 병렬 처리 최적화

# 원본 경로와 LoRA 경로 병렬 계산
with torch.cuda.stream(lora_stream):
    lora_output = input @ A @ B * scaling

main_output = input @ W
torch.cuda.synchronize()
final_output = main_output + lora_output

3.7 추론 시 LoRA 병합

학습 완료 후 가중치 병합:

# 추론 전 병합
W_merged = W_original + B @ A * (alpha / r)

# 이후 LoRA 없이 일반 추론
output = input @ W_merged  # 추가 연산 없음

이를 통해 추론 시 추가적인 레이턴시 없이 LoRA의 이점을 모두 활용할 수 있습니다.

4. LoRA의 발전: QLoRA와 AdaLoRA

4.1 QLoRA (Quantized LoRA)

4.1.1 핵심 혁신

QLoRA는 LoRA의 메모리 효율성을 극한까지 끌어올린 방법입니다:

4-bit NormalFloat (NF4) 양자화
- 정보 이론적으로 최적화된 4비트 데이터 타입
- 정규분포를 따르는 가중치에 최적화
- FP16 대비 75% 메모리 절약
Double Quantization
- 양자화 상수 자체도 양자화
- 추가 0.37 bits/parameter 절약
- 64개 블록당 하나의 양자화 상수
Paged Optimizers
- GPU 메모리 부족 시 CPU RAM 활용
- 자동 페이징으로 OOM 방지
- NVIDIA Unified Memory 활용

4.1.2 QLoRA의 수학적 기반

양자화 과정:

1. 원본 가중치: W ∈ FP16
2. 정규화: W_norm = W / max(|W|)
3. NF4 양자화: W_nf4 = Quantize_NF4(W_norm)
4. 저장: W_nf4 (4-bit) + scale (FP16)

역양자화 (추론/학습 시):

W_dequant = Dequantize_NF4(W_nf4) × scale

4.1.3 QLoRA 학습 과정

# 순전파
W_dequant = dequantize(W_quantized)  # 4-bit → FP16
output = input @ W_dequant + input @ A @ B  # LoRA는 FP16 유지

# 역전파
grad_A, grad_B = compute_gradients(loss)  # LoRA만 그래디언트 계산
# 원본 가중치는 그래디언트 계산 안 함 (메모리 절약)

4.1.4 메모리 비교 (LLaMA-65B 기준)

구성요소	FP16	INT8	NF4 (QLoRA)
모델 가중치	130GB	65GB	35GB
LoRA 파라미터	200MB	200MB	200MB
활성화값	추정 30GB	추정 30GB	추정 15GB
총계	160GB+	95GB+	50GB

4.2 AdaLoRA (Adaptive LoRA)

4.2.1 핵심 아이디어

AdaLoRA는 모든 레이어에 동일한 rank를 적용하는 대신, 중요도에 따라 rank를 동적으로 할당합니다.

문제 인식:

모든 레이어가 동일한 수준의 적응을 필요로 하지 않음
일부 레이어는 높은 rank, 일부는 낮은 rank로 충분
파라미터 예산을 효율적으로 분배 필요

4.2.2 SVD 기반 중요도 측정

중요도 점수 계산:

# LoRA 행렬의 SVD
P = B @ A  # LoRA 가중치
U, S, V = torch.svd(P)

# 특이값 기반 중요도
importance = sum(S[:k]) / sum(S)  # 상위 k개 특이값의 비율

4.2.3 적응적 Rank 할당 알고리즘

def adaptive_rank_allocation(importance_scores, total_budget):
    """
    importance_scores: 각 레이어의 중요도
    total_budget: 전체 파라미터 예산
    """
    # 1. 중요도에 비례하여 초기 rank 할당
    initial_ranks = proportional_allocation(importance_scores, total_budget)

    # 2. 반복적 조정
    for iteration in range(num_iterations):
        # 각 레이어의 성능 기여도 측정
        layer_gradients = compute_layer_gradients()

        # 높은 기여도 레이어에 더 많은 rank 할당
        adjusted_ranks = realloc_based_on_gradients(
            initial_ranks,
            layer_gradients
        )

        # 최소/최대 rank 제약
        adjusted_ranks = clip(adjusted_ranks, min_rank=1, max_rank=64)

    return adjusted_ranks

4.2.4 AdaLoRA의 학습 과정

Phase 1: Warm-up (모든 레이어 동일 rank)

# 초기 몇 epoch는 동일한 rank로 학습
for layer in model.layers:
    layer.lora_rank = initial_rank
train(model, warm_up_epochs)

Phase 2: 적응적 조정

# 중요도 기반 rank 재할당
for epoch in range(remaining_epochs):
    # 중요도 계산
    importance = calculate_importance(model)

    # Rank 재할당
    new_ranks = adaptive_rank_allocation(importance, budget)

    # LoRA 행렬 크기 조정
    for layer, new_rank in zip(model.layers, new_ranks):
        resize_lora_matrices(layer, new_rank)

    # 학습 계속
    train(model, 1)

4.2.5 성능 비교

방법	평균 Rank	파라미터 수	GLUE 점수
LoRA (r=8)	8	4.7M	83.5
LoRA (r=16)	16	9.4M	84.9
AdaLoRA	8 (평균)	4.7M	85.2

4.3 QLoRA와 AdaLoRA의 결합

최신 연구에서는 두 방법을 결합하여 더욱 효율적인 파인튜닝을 시도하고 있습니다:

class AdaptiveQLoRA:
    def __init__(self, model, quant_config, ada_config):
        # 모델 양자화 (QLoRA)
        self.quantized_model = quantize_model(model, quant_config)

        # 적응적 LoRA 설정
        self.ada_config = ada_config
        self.layer_ranks = {}

    def train_step(self, batch):
        # 1. 현재 중요도 계산
        importance = self.calculate_importance()

        # 2. Rank 동적 조정
        if self.should_adjust_ranks():
            self.adjust_ranks(importance)

        # 3. 4-bit 모델에서 LoRA 학습
        loss = self.forward_with_qlora(batch)
        self.backward_lora_only(loss)

4.4 기타 LoRA 변형들

4.4.1 LoRA+ (Different Learning Rates)

# A와 B 행렬에 다른 학습률 적용
optimizer = torch.optim.AdamW([
    {'params': lora_A_params, 'lr': 1e-4},
    {'params': lora_B_params, 'lr': 2e-4}  # B에 더 높은 lr
])

4.4.2 Multi-LoRA (Mixture of LoRA Experts)

class MultiLoRA(nn.Module):
    def __init__(self, num_experts=4):
        self.experts = nn.ModuleList([
            LoRALayer(d, k, r) for _ in range(num_experts)
        ])
        self.router = nn.Linear(d, num_experts)

    def forward(self, x):
        # 라우팅 가중치 계산
        routing_weights = F.softmax(self.router(x), dim=-1)

        # 전문가 출력 가중 합
        output = sum(
            w * expert(x)
            for w, expert in zip(routing_weights, self.experts)
        )
        return output

4.4.3 Structured LoRA

특정 구조를 가진 LoRA 변형:

Block-diagonal LoRA: 블록 대각 구조로 파라미터 추가 절약
Kronecker Product LoRA: 크로네커 곱으로 더 효율적인 표현

이러한 발전된 LoRA 변형들은 각각의 장단점을 가지며, 사용 사례에 따라 적절히 선택하여 활용할 수 있습니다.

5. 수학적 기반과 이론적 배경

5.1 Intrinsic Dimensionality 가설

대규모 모델의 적응은 낮은 차원의 부공간에서 발생
Aghajanyan et al. (2020)의 연구로 실험적 검증
태스크별 필요 차원이 전체 파라미터 대비 극히 작음

5.2 행렬 분해 이론

특이값 분해(SVD) 관점:

ΔW = UΣV^T ≈ U_r Σ_r V_r^T

상위 r개 특이값만으로 근사
대부분의 정보가 소수의 특이값에 집중

5.3 최적화 이론

Parameter Efficiency: O(d×k) → O(r(d+k))
Regularization Effect: Low-rank 제약이 암묵적 정규화
Convergence: 작은 학습률에서도 안정적 수렴

6. 구현 및 활용 방법

6.1 LoRA 적용 위치

Transformer 아키텍처에서:

Query, Value 행렬 (가장 효과적)
Key, Output projection (선택적)
FFN 레이어 (추가 성능 향상)

6.2 하이퍼파라미터 선택 가이드

파라미터	일반적 범위	선택 기준
Rank (r)	1-64	태스크 복잡도에 비례
Alpha (α)	r-2r	학습 안정성 조절
Dropout	0.05-0.1	과적합 방지
Target Modules	["q_proj", "v_proj"]	모델 아키텍처 의존

6.3 구현 방법

PyTorch/Transformers 생태계:

PEFT 라이브러리 사용 (Hugging Face)
10줄 이내 코드로 LoRA 적용 가능
자동 어댑터 관리 기능

웹 개발자를 위한 접근:

Hugging Face Inference API 활용
REST API로 LoRA 모델 서빙
JavaScript/Node.js 통합 가능

7. 하드웨어 효율성과 최적화

7.1 메모리 요구사항 비교

LLaMA-2 7B 모델 기준:

구성요소	전체 파인튜닝	LoRA	QLoRA
모델 가중치	14GB	14GB (읽기전용)	3.5GB (4-bit)
그래디언트	14GB	14MB	14MB
옵티마이저	56GB	56MB	56MB
활성화값	20-50GB	10-20GB	5-10GB
총계	104-134GB	24-34GB	9-14GB

7.2 QLoRA의 추가 최적화

4-bit NormalFloat (NF4) 양자화
- 정보 손실 최소화하며 75% 메모리 절약
Double Quantization
- 양자화 상수도 양자화
Paged Optimizers
- GPU-CPU 메모리 스왑 자동화

7.3 실제 하드웨어 요구사항

모델 크기	전체 파인튜닝	LoRA	QLoRA
7B	2×A100 40GB	1×A100 40GB	1×RTX 4090
13B	4×A100 40GB	1×A100 80GB	1×A100 40GB
70B	8×A100 80GB	2×A100 40GB	1×A100 40GB

8. 실무 적용 사례와 모범 사례

8.1 산업별 활용 사례

1. 고객 서비스

기업별 응대 스타일 학습
제품 특화 지식 추가
다국어 지원

2. 의료 분야

병원별 프로토콜 적용
전문 용어 학습
진료 기록 요약

3. 법률 서비스

법무법인 스타일 학습
계약서 유형별 특화
판례 분석

4. 교육 플랫폼

수준별 설명 조정
과목별 전문화
커리큘럼 맞춤화

8.2 실무 팁

시작은 작게: r=8부터 시작하여 필요시 증가
A/B 테스팅: 기존 모델과 성능 비교
버전 관리: Git LFS로 어댑터 관리
모니터링: 응답 시간과 품질 추적

8.3 비용 효율성

AWS 비용: 32배 절감 (p4d.24xlarge → g5.xlarge)
학습 시간: 수 주 → 1-2일
유지보수: 다중 모델 대신 어댑터 교체

9. 향후 전망 및 결론

9.1 기술 발전 방향

현재 연구 동향:

S-LoRA: 서빙 최적화
VeRA: Vector-based Random Adaptation
Mixture of LoRAs: 다중 전문가 시스템
Hierarchical LoRA: 계층적 적응

9.2 미래 전망

더 큰 모델: 1T+ 파라미터 모델도 개인 GPU에서 파인튜닝
실시간 적응: 온라인 학습과 결합
자동화: AutoML 기법으로 최적 설정 자동 탐색
통합 프레임워크: 표준화된 어댑터 생태계

9.3 결론

LoRA는 대규모 언어 모델의 민주화를 실현하는 핵심 기술입니다:

접근성: 누구나 최신 AI 기술 활용 가능
효율성: 극적인 자원 절약
실용성: 실제 비즈니스 문제 해결
혁신성: 지속적인 개선과 발전

LoRA와 그 변형들(QLoRA, AdaLoRA 등)은 이미 LLM 파인튜닝의 de facto 표준이 되었으며, 앞으로도 더 많은 혁신을 가능하게 할 것입니다. 이 기술을 통해 개인 연구자부터 대기업까지 모두가 최첨단 AI 기술의 혜택을 누릴 수 있게 되었습니다.

부록: 추가 리소스

논문:
- "LoRA: Low-Rank Adaptation of Large Language Models" (Hu et al., 2021)
- "QLoRA: Efficient Finetuning of Quantized LLMs" (Dettmers et al., 2023)
- "AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning" (Zhang et al., 2023)
라이브러리: Hugging Face PEFT (https://github.com/huggingface/peft)
튜토리얼: https://huggingface.co/docs/peft
커뮤니티: r/LocalLLaMA, Hugging Face Forums

김두환 (라도)

20세기소년

이전 포스트

비지도학습

다음 포스트