[day-6 논문 핥기] LORA: Low-Rank Adaptation of Large Language Models

choonsikmom·2025년 9월 18일

LLM Lora 논문리뷰

reading papers

목록 보기

33/35

LoRA: Low-Rank Adaptation of Large Language Models (ICLR 2022)

👉🏻 LoRA: Low-Rank Adaptation of Large Language Models by Microsoft

paper

github

Full Summary

본 논문은 거대 언어 모델(Large Language Models)을 특정 태스크에 맞게 미세 조정(fine-tuning)할 때 발생하는 막대한 계산 비용과 저장 공간 문제를 해결하기 위해, LoRA (Low-Rank Adaptation)라는 매우 효율적인 파라미터 업데이트 방법을 제안한다.

Problem State

비용 문제: GPT-3와 같이 수천억 개의 파라미터를 가진 거대 언어 모델을 full fine-tuning하는 것은 엄청난 비용이 든다.
특히 여러 태스크에 대해 각각의 파인튜닝된 모델 인스턴스(예: 175B)를 독립적으로 저장하고 배포하는 것은 거의 불가능에 가깝다.
기존 해결책의 단점: 이 문제를 해결하기 위해 Adapter나 Prefix-Tuning 같은 경량화된 파인튜닝 방법들이 제안되었지만, 다음과 같은 한계가 있었다.
- Adapter : 모델의 중간에 새로운 레이어를 추가하는 방식이어서, 추론 시에 추가적인 계산이 필요해 추론 지연(inference latency) 발생
- Prefix-tuning : 입력 시퀀스 길이의 일부를 학습 파라미터(prefix)로 사용하기 때문에, 모델이 처리할 수 있는 실제 시퀀스 길이가 줄어듦

Proposed Method

본 논문에서 제안하는 LoRA 의 핵심 아이디어는 모델을 파인튜닝할 때 가중치 행렬의 변화량( $ΔW$ )은 매우 낮은 내재적 차원(low intrinsic rank)을 가질 것이라는 가설에서 출발한다.

핵심 메커니즘:
1. 사전 학습된 거대 모델의 원본 가중치( $W_0$ )는 완전히 동결(freeze)
2. 대신, 원본 가중치 옆에 두 개의 작은 저계급(low-rank) 행렬( $A$ 와 $B$ )을 추가하고, 학습 과정에서는 오직 이 두 행렬만 업데이트한다.
  여기서 가중치 변화량은 $ΔW=BA$ 로 표현된다.
3. $A$ 는 랜덤 가우시안 분포로, $B$ 는 $0$ 으로 초기화하여 학습 시작 시점에는 $ΔW$ 가 $0$ 이 되도록 한다.
4. 최종적으로 모델의 출력은 원본 가중치를 통과한 결과( $h=W_0x$ )와 LoRA를 통과한 결과 $ΔWx=BAx$ 를 더해서 계산한다: $h=W_0x+BAx$

LoRA의 주요 장점:
- 압도적인 파라미터 효율성: 학습해야 할 파라미터 수를 최대 10,000배까지 줄이고, GPU 메모리 요구량을 3배까지 감소시킨다.
  예를 들어 GPT-3 175B 모델의 경우, 전체 파인튜닝 시 필요한 VRAM이 1.2TB인 반면 LoRA는 350GB만으로 충분했다. 체크포인트 크기 역시 350GB에서 35MB로 극적으로 줄어든다.
- 추론 지연 없음 (No Inference Latency): 학습이 완료된 후에는 원본 가중치에 변화량 $ΔW$ 를 미리 합쳐서( $W=W0+BA$ ) 저장할 수 있다.
  따라서 추론 시에는 어떠한 추가 계산도 필요 없어, 전체 파인튜닝된 모델과 동일한 속도를 가진다.
- 효율적인 태스크 전환: 거대한 원본 모델은 공유하고, 각 태스크에 맞는 작은 LoRA 가중치( $A$ , $B$ )만 교체하면 되므로 스토리지 부담이 적고 태스크 전환이 매우 빠르다.
- 뛰어난 성능: 매우 적은 파라미터만 학습함에도 불구하고 RoBERTa, DeBERTa, GPT-2, GPT-3 등 다양한 모델에서 전체 파인튜닝과 동등하거나 더 나은 성능을 보였다.

Experiments and Results

NLU (자연어 이해) task : RoBERTa와 DeBERTa 모델을 GLUE 벤치마크에서 평가한 결과, LoRA는 훨씬 적은 파라미터(예: 355M vs 0.8M)를 사용하고도 전체 파인튜닝과 비슷하거나 더 높은 평균 점수를 달성했다.

NLG (자연어 생성) task : GPT-2 모델을 사용한 E2E NLG Challenge에서 LoRA는 Adapter나 Prefix-Tuning 같은 다른 경량화 방법들보다 우수한 성능을 보였다.

GPT-3 175B 스케일업 실험: WikiSQL, MultiNLI, SAMSum 태스크에서 LoRA는 전체 파인튜닝을 포함한 모든 다른 적응 방법들을 능가하는 성능을 보였다. 특히 다른 방법들은 학습 파라미터 수가 늘어날 때 성능이 오히려 감소하는 현상을 보인 반면, LoRA는 안정적인 성능을 유지했다.

Low-Rank Updates 분석

어떤 가중치에 적용해야 하는가?: Transformer의 어텐션 가중치 중 $W_q$ 와 $W_v$ 에 함께 LoRA를 적용했을 때 가장 좋은 성능을 보였다. 이는 제한된 파라미터 예산 안에서 하나의 가중치에 높은 rank를 할당하는 것보다, 여러 가중치에 낮은 rank를 할당하는 것이 더 효과적임을 시사한다.
최적의 Rank(r)는 무엇인가?: 놀랍게도 매우 작은 rank 값(r=1 또는 2)만으로도 충분히 경쟁력 있는 성능을 보였다. 이는 파인튜닝 시 가중치 변화량( $ΔW$ )의 "내재적 차원(intrinsic rank)"이 실제로 매우 낮다는 가설을 강력하게 뒷받침한다.
$ΔW$ 와 $W$ 의 관계: 분석 결과, LoRA가 학습한 변화량 $ΔW$ 는 원본 가중치 $W$ 에 이미 존재하던 특징 중 일부를 증폭(amplify)하는 역할을 하는 것으로 나타났다.
특히, W에서 중요하게 다뤄지지 않았던 방향성을 크게 증폭시켜 특정 다운스트림 태스크에 필요한 특징을 부각시키는 것으로 분석되었다.

Section Summary

Introduction

거대 모델의 파인튜닝(Fine-tuning) 한계

자연어 처리(NLP)의 일반적인 패러다임은 거대 언어 모델을 사전 학습한 후, 특정 다운스트림 태스크에 맞게 전체 파라미터를 업데이트하는 파인튜닝 방식이다.

GPT-3 (175B 파라미터)와 같이 모델의 크기가 거대해지면서, 모든 태스크마다 전체 파라미터를 복제하여 저장하고 배포하는 것은 비용 문제로 인해 거의 불가능해졌다.

기존 경량화 기법들의 단점

이러한 문제를 해결하기 위해 Adapter 삽입이나 Prefix-Tuning 같은 파라미터 효율적 적응(parameter-efficient adaptation) 방법들이 제안되었다.

하지만 이 기법들은 모델의 깊이를 늘려 추론 지연(inference latency)을 발생시키거나, 사용 가능한 시퀀스 길이를 줄이는 단점이 있다. 또한, 종종 전체 파인튜닝 방식의 성능에 미치지 못하는 등 효율성과 성능 간의 트레이드오프가 존재했다.

LoRA (Low-Rank Adaptation) 제안

본 논문은 사전 학습된 모델의 가중치 변화량( $ΔW$ )이 낮은 "내재적 차원(intrinsic rank)"을 가질 것이라는 가설에 기반하여 LoRA를 제안한다.

LoRA는 기존의 사전 학습된 가중치는 동결(freeze)하고, Transformer 아키텍처의 각 레이어에 학습 가능한 저계급 분해 행렬(trainable rank decomposition matrices)을 주입하여 파인튜닝을 수행한다.

LoRA의 핵심 장점

효율성: 학습 가능한 파라미터 수를 10,000배, GPU 메모리 요구량을 3배까지 줄여준다. 또한, 대부분의 파라미터에 대한 그래디언트를 계산할 필요가 없어 학습이 더 효율적이다.
추론 속도: 배포 시에는 학습된 저계급 행렬을 기존 가중치에 병합(merge)할 수 있으므로, 전체 파인튜닝된 모델과 비교해 추가적인 추론 지연이 전혀 발생하지 않는다.
성능 및 호환성: 더 적은 파라미터로도 RoBERTa, DeBERTa, GPT-2, GPT-3에서 전체 파인튜닝과 동등하거나 더 나은 성능을 보인다. 또한 Prefix-Tuning 등 다른 방법론과 결합하여 사용할 수도 있다.

Problem Statement

이 섹션에서는 full fine-tuning의 문제점을 수학적으로 정의하고, LoRA가 목표하는 파라미터 효율적인 접근법을 제시한다.

Full Fine-tuning의 정의
: 사전 학습된 언어 모델의 가중치를 $\Phi_{0}$ 라고 할 때, 전체 파인튜닝은 특정 다운스트림 태스크 데이터셋 $\mathcal{Z}$ 에 대해 조건부 언어 모델링 목표 함수를 최대화하는 방향으로 가중치 전체를 업데이트한다.

즉, 모델의 파라미터는 $\Phi_{0}$ 에서 시작하여 그래디언트 업데이트를 통해 $\Phi_{0} + \Delta\Phi$ 로 변경된다.

전체 파인튜닝의 핵심 문제
: 가장 큰 단점은 각 다운스트림 태스크마다 원본 모델( $|Φ_0|$ )과 동일한 크기의 파라미터 변화량( $|ΔΦ|$ )을 새로 학습하고 저장해야 한다는 것이다.

만약 사전 학습 모델이 GPT-3 (175B 파라미터)처럼 거대하다면, 수많은 태스크에 대해 각각 독립적인 모델 인스턴스를 저장하고 배포하는 것은 현실적으로 불가능하거나 매우 어렵다.
Parameter-Efficient Approach의 목표
: 본 논문에서는 이러한 문제를 해결하기 위해, 태스크별 파라미터 변화량 $ΔΦ$ 를 훨씬 더 작은 크기의 파라미터 집합 $Θ$ 로 인코딩하는 방식을 채택한다. (즉, $ΔΦ=ΔΦ(Θ)$ 이고, $|Θ|≪|Φ_0|$ 이다.)

따라서 거대한 $ΔΦ$ 를 직접 찾는 대신, 훨씬 작은 $Θ$ 를 최적화하는 문제로 전환된다.

LoRA는 이 $Θ$ 를 저계급(low-rank) 행렬로 표현함으로써, 학습 파라미터의 수를 원본 모델 대비 0.01% 수준까지 줄이는 것을 목표로 한다.

Aren't Existing Solutions Good Enough?

본 섹션에서는 LoRA 이전에 사용되던 대표적인 파라미터 효율적 파인튜닝 방법들의 단점을 지적한다.

Adapter Layers의 한계:
: Adapter 방식은 Transformer 블록 사이에 새로운 레이어를 순차적으로 추가하는 방식이다.

이 추가된 레이어 때문에 추론 시에 반드시 추가적인 계산이 필요하며, 이는 추론 지연(inference latency)을 발생시킨다.

특히, 온라인 서비스와 같이 배치 크기(batch size)가 1처럼 매우 작은 환경에서는 지연 시간이 더욱 두드러진다.
Prefix-Tuning의 한계:
: Prefix-Tuning은 입력 시퀀스의 앞부분에 연속적인 가상 토큰(prefix)을 추가하고 이 임베딩만 학습하는 방식이다.

이 방식은 최적화가 어렵고 학습 파라미터 수에 따라 성능이 비선형적으로 변하는 등 튜닝이 불안정하다.

더 근본적으로, 적응을 위해 시퀀스 길이의 일부를 할애해야 하므로, 다운스트림 태스크가 실제로 사용할 수 있는 컨텍스트 길이가 줄어든다는 단점이 있다.

Our Method

1. 저계급 파라미터화 업데이트 행렬 (Low-Rank-Parametrized Update Matrices)

핵심 가설: Aghajanyan et al. (2020)을 기반으로 사전 학습된 언어 모델은 낮은 "내재적 차원(intrinsic dimension)"을 가지며, 파인튜닝 시 가중치의 변화량(ΔW) 또한 낮은 내재적 차원(intrinsic rank)을 가질 것이라고 가정한다.
저계급 분해 (Low-rank Decomposition): 이 가설에 따라, 원본 가중치 $W_0$ 의 업데이트 행렬 $ΔW$ 를 직접 학습하는 대신, 이를 두 개의 작은 행렬 $B\in \mathbb{R}^{d \times r}$ 와 $A\in \mathbb{R}^{r \times k}$ 의 곱으로 표현한다 ( $r$ 은 rank).

따라서 업데이트된 가중치는 $W_0+ΔW=W_0+BA$ 가 된다. 학습 중에는 원본 가중치 $W_0$ 는 동결(frozen)시키고, 오직 $A$ 와 $B$ 만 학습시킨다.
순전파 (Forward Pass): 입력 $x$ 에 대한 순전파는 $h=W_0x+ΔWx=W_0x+BAx$ 로 계산된다.

$A$ 는 랜덤 가우시안 분포로, $B$ 는 0으로 초기화하여 학습 시작 시점에는 $ΔW$ 가 0이 되도록 한다.

또한, 하이퍼파라미터 튜닝을 줄이기 위해 $ΔWx$ 에 상수 $\frac{\alpha}{r}$ 를 곱해 스케일링을 조정한다.

추론 지연 없음 (No Additional Inference Latency):배포 시에는 학습된 A와 B를 미리 곱해서 $W=W_0+BA$ 로 계산하여 하나의 행렬로 병합(merge)할 수 있다.

따라서 추론(inference) 시에는 추가적인 계산이 전혀 없어, 전체 파인튜닝된 모델과 완벽히 동일한 속도를 가진다. 다른 태스크로 전환할 때는 메모리 오버헤드가 거의 없이 기존 $BA$ 를 빼고 새로운 $B'A'$ 를 더하면 되므로 매우 빠르다.

2. Transformer에 LoRA 적용 (Applying LoRA to Transformer)

적용 범위: LoRA는 원칙적으로 신경망의 모든 가중치 행렬에 적용할 수 있다. 하지만 본 논문에서는 파라미터 효율성과 단순성을 위해, Transformer의 Self-Attention 모듈 내 가중치 행렬( $W_q,W_k,W_v,W_o$ )에만 LoRA를 적용하는 것에 집중한다.

MLP 모듈은 동결시켜 다운스트림 태스크 학습 시 업데이트되지 않도록 한다.

실질적 이점 (Practical Benefits):
- VRAM 감소: Adam 옵티마이저 사용 시, 동결된 파라미터에 대한 옵티마이저 상태(optimizer states)를 저장할 필요가 없어 VRAM 사용량을 최대 2/3까지 절약한다. GPT-3 175B 모델의 경우, 학습에 필요한 VRAM이 1.2TB에서 350GB로 감소했다.
- 저장 공간 감소: 체크포인트 크기가 극적으로 줄어든다. GPT-3의 경우, 체크포인트가 350GB에서 35MB로 약 10,000배 감소했다.
- 빠른 태스크 전환: 거대한 사전 학습 가중치는 VRAM에 그대로 두고, 각 태스크에 맞는 작은 LoRA 가중치만 교체하면 되므로 서비스 배포 시 비용이 매우 저렴하다.
- 학습 속도 향상: 대부분의 파라미터에 대한 그래디언트를 계산할 필요가 없어, GPT-3에서 전체 파인튜닝 대비 학습 처리량이 25% 향상되었다.
- 한계점: 가중치를 병합하여 추론 지연을 없애는 방식을 선택할 경우, 단일 순전파(forward pass) 내에서 각기 다른 LoRA 모듈을 사용하는 입력들을 배치(batch)로 처리하는 것이 직관적이지 않다는 한계가 있다

Empirical Experiments

1. Baselines (비교 기준 모델)

LoRA의 성능을 평가하기 위해 다음과 같은 여러 기준 모델과 비교했다.

Fine-Tuning (FT): 모델의 모든 파라미터를 학습시키는 표준 방식이다.
BitFit (Bias-only): Bias 벡터만 학습하고 나머지 가중치는 모두 동결하는 방식이다.
Prefix-Tuning (PreEmbed & PreLayer): 입력 시퀀스 앞단에 학습 가능한 prefix를 추가하여 파인튜닝을 대체하는 방식이다.
Adapter Tuning: Transformer 레이어 사이에 작은 신경망 모듈(adapter)을 삽입하여 해당 모듈만 학습하는 방식이다.

2. RoBERTa 및 DeBERTa 실험 (GLUE Benchmark)

RoBERTa (base/large) 모델을 GLUE 벤치마크에서 평가한 결과, LoRA는 전체 파인튜닝(FT)보다 훨씬 적은 파라미터(예: 355M vs 0.8M)를 사용하고도 동등하거나 더 나은 평균 점수를 달성했다.

DeBERTa XXL (1.5B) 모델에서도 LoRA는 4.7M개의 파라미터만으로 1.5B개를 모두 학습시킨 전체 파인튜닝과 대등한 성능을 보였다.

3. GPT-2 실험 (NLG Tasks)

GPT-2 medium/large 모델을 E2E NLG Challenge와 같은 자연어 생성(NLG) 태스크에서 평가했다.

결과적으로 LoRA는 비슷한 수의 파라미터를 가진 Adapter나 Prefix-Tuning 같은 다른 경량화 기법들보다 일관되게 더 좋은 성능을 보였다.

4. GPT-3 175B 실험 (Scaling Up)

LoRA의 최종 스트레스 테스트로 GPT-3 175B 모델에 적용하여 WikiSQL, MultiNLI, SAMSum 태스크를 수행했다.

놀랍게도 LoRA는 모든 태스크에서 전체 파인튜닝(FT)을 포함한 모든 비교 기법의 성능을 능가했다.

특히 Prefix-Tuning과 같은 다른 방법들은 학습 가능한 파라미터 수가 특정 지점을 넘어가면 오히려 성능이 저하되는 현상을 보였으나, LoRA는 안정적인 성능 확장성을 보여주었다.

Transformer Language Models: Transformer 아키텍처는 BERT와 GPT-2와 같은 거대 언어 모델의 등장을 이끌었으며, 일반적인 도메인 데이터에 사전 학습 후 특정 태스크에 파인튜닝하는 패러다임을 정착시켰다.

Prompt Engineering and Fine-Tuning: GPT-3는 소수의 예제만으로도 작동하지만, 결과가 프롬프트 구성에 크게 의존하여 프롬프트 엔지니어링이 중요해졌다.

일반적으로는 전체 모델을 재학습시키는 파인튜닝이 더 높은 성능을 보이지만, GPT-3와 같은 거대 모델에서는 메모리 문제와 높은 하드웨어 장벽으로 인해 파인튜닝이 매우 어렵다.

Parameter-Efficient Adaptation:
- Adapter Layers: Houlsby et al. (2019) 등이 제안한 어댑터 방식은 기존 레이어 사이에 새로운 레이어를 삽입하는 방식이다.
  
  이 방식은 LoRA와 유사하게 병목 구조를 사용하지만, 결정적으로 추론 시에 학습된 가중치를 기존 가중치와 병합할 수 없어 추가적인 추론 지연(latency)을 발생시킨다.
- Prompt-based Methods: Li & Liang (2021) 등이 제안한 Prefix-Tuning과 같은 방식은 입력 임베딩을 최적화하는 방식으로 파인튜닝을 대체한다.
  
  그러나 이 방식들은 프롬프트에 사용되는 특수 토큰의 수가 늘어날수록, 태스크가 실제로 사용할 수 있는 시퀀스 길이를 차지한다는 단점이 있다.
Low-Rank Structures in Deep Learning: 딥러닝에서 저계급(Low-rank) 구조는 매우 흔하며, 많은 선행 연구들이 신경망을 학습시킬 때 명시적으로 저계급 제약을 가하기도 했다.

하지만, 알려진 바로는 사전 학습된 모델을 동결(freeze)시킨 상태에서 다운스트림 태스크 적응을 위해 저계급 업데이트(low-rank update)를 적용한 연구는 LoRA가 최초이다.

본 논문에서 제안하는 저계급 적응 업데이트는 이러한 기존 연구들로부터 충분한 이론적 동기를 얻었다.

Understanding the Low-rank Updates

1. 어떤 가중치 행렬에 LoRA를 적용해야 하는가?

Q. 제한된 파라미터 예산 내에서, Transformer의 어떤 가중치 행렬을 업데이트해야 최고의 성능을 낼 수 있는가?
실험: GPT-3 175B 모델에서 약 18M개의 파라미터 예산을 고정하고, 어텐션 가중치( $W_q,W_k,W_v,W_o$ )의 여러 조합에 LoRA를 적용하여 성능을 비교했다.
결과: $W_q$ 와 $W_v$ 두 가지에 동시에 LoRA를 적용했을 때 가장 좋은 성능을 보였다.

이는 하나의 가중치 행렬에 높은 rank를 할당하는 것보다, 여러 가중치 행렬에 낮은 rank를 할당하는 것이 더 효과적임을 시사한다.

2. LoRA에 최적화된 Rank( $r$ )는 무엇인가?

Q. 업데이트 행렬 $ΔW$ 는 정말로 저계급(rank-deficient)인가? 그렇다면 실제 적용 시 어느 정도의 rank가 적절한가?
실험: $W_q$ 단독, 그리고 ${W_q,W_v}$ 조합 등에 대해 rank( $r$ ) 값을 1부터 64까지 변화시키며 성능을 측정했다.
결과: 놀랍게도 매우 작은 rank 값( $r=1$ 또는 $2$ )만으로도 전체 파인튜닝에 필적하는 경쟁력 있는 성능을 보였다.
분석: 서로 다른 rank 값(예: $r=8$ 과 $r=64$ )으로 학습된 LoRA 행렬의 특이 벡터(singular vector)들이 형성하는 부분 공간(subspace)의 유사도를 분석했다.

그 결과, 가장 중요한 최상위 특이 벡터 방향(top singular-vector directions)은 rank 값에 상관없이 매우 유사했으며, 이는 업데이트 행렬 $ΔW$ 가 실제로 매우 낮은 "내재적 차원(intrinsic rank)"을 가질 수 있음을 강력하게 뒷받침한다.

3. 업데이트 행렬( $ΔW$ )은 원본 가중치( $W$ )와 어떤 관계인가?

Q. 학습된 $ΔW$ 는 원본 가중치 $W$ 와 높은 상관관계가 있는가? $ΔW$ 는 $W$ 에 비해 얼마나 큰 변화를 주는가?
실험: $ΔW$ 가 형성하는 저차원 부분 공간에 원본 가중치 $W$ 를 투영(projection)시켜 두 행렬 간의 상관관계를 분석했다.
결과 및 분석: $ΔW$ 는 무작위 행렬보다 $W$ 와 더 높은 상관관계를 보였다. 이는 $ΔW$ 가 $W$ 에 이미 존재하는 특정 특징들을 증폭(amplify)하는 역할을 함을 의미한다.

하지만 $ΔW$ 는 $W$ 의 가장 중요한 방향성(top singular directions)을 그대로 반복하는 것이 아니라, $W$ 에서 상대적으로 덜 강조되었던 방향성을 선택적으로 증폭시키는 것으로 나타났다.

이 증폭 계수(amplification factor)는 매우 컸다 ( $r=4$ 일 때 약 21.5배). 이는 LoRA가 일반적인 사전 학습에서는 덜 중요했지만 특정 다운스트림 태스크에 필수적인 특징들을 찾아내 크게 강화하는 방식으로 작동함을 시사한다.

Conclusion and Future Work

결론 (Conclusion)

LoRA의 가치: 거대 언어 모델의 전체 파인튜닝은 하드웨어 요구사항과 저장/전환 비용 측면에서 매우 비효율적이다.

본 논문은 추론 지연(inference latency)을 발생시키지 않고, 입력 시퀀스 길이를 줄이지 않으면서도 높은 모델 품질을 유지하는 효율적인 적응 전략인 LoRA를 제안했다.
핵심 장점: LoRA는 모델 파라미터의 대부분을 공유함으로써, 서비스로 배포되었을 때 빠른 태스크 전환을 가능하게 한다.
범용성: 본 논문은 Transformer 언어 모델에 집중했지만, LoRA의 원칙은 밀집 레이어(dense layer)를 가진 어떤 신경망에도 일반적으로 적용될 수 있다.

향후 연구 방향 (Future Work)

다른 방법론과의 결합: LoRA는 다른 효율적인 적응 방법들과 결합하여 직교적인(orthogonal) 성능 향상을 가져올 수 있다.
파인튜닝 메커니즘 분석: 사전 학습된 특징(feature)이 다운스트림 태스크에 어떻게 변환되는지에 대한 메커니즘은 아직 불분명하다. LoRA는 전체 파인튜닝보다 분석이 용이하므로, 이 질문에 대한 해답을 찾는 데 더 다루기 쉬운 도구가 될 수 있다.
적용 가중치 선택: 현재는 LoRA를 적용할 가중치 행렬을 경험적(heuristics)으로 선택하고 있다. 이를 더 원칙에 입각한(principled) 방법으로 선택하는 방법에 대한 연구가 필요하다.
원본 가중치의 Rank-Deficiency: 업데이트 행렬 $ΔW$ 가 저계급(rank-deficient)이라는 사실은, 원본 가중치 행렬 $W$ 역시 저계급일 수 있다는 가능성을 시사하며, 이는 향후 연구의 영감이 될 수 있다.

choonsikmom

춘식이랑 함께하는 개발일지.. 그런데 이제 먼작귀를 곁들인

이전 포스트

[day-5 논문 핥기] Retrieval-Augmented Generation (RAG) for Knowledge-Intensive NLP Tasks

다음 포스트

[day-6 논문 핥기] LORA: Low-Rank Adaptation of Large Language Models

reading papers

👉🏻 LoRA: Low-Rank Adaptation of Large Language Models by Microsoft

Full Summary

Problem State

Proposed Method

Experiments and Results

Low-Rank Updates 분석

Section Summary

Introduction

Problem Statement

Aren't Existing Solutions Good Enough?

Our Method

1. 저계급 파라미터화 업데이트 행렬 (Low-Rank-Parametrized Update Matrices)

2. Transformer에 LoRA 적용 (Applying LoRA to Transformer)

Empirical Experiments

1. Baselines (비교 기준 모델)

2. RoBERTa 및 DeBERTa 실험 (GLUE Benchmark)

3. GPT-2 실험 (NLG Tasks)

4. GPT-3 175B 실험 (Scaling Up)

Understanding the Low-rank Updates

1. 어떤 가중치 행렬에 LoRA를 적용해야 하는가?

2. LoRA에 최적화된 Rank( $r$ )는 무엇인가?

3. 업데이트 행렬( $ΔW$ )은 원본 가중치( $W$ )와 어떤 관계인가?

Conclusion and Future Work

결론 (Conclusion)

향후 연구 방향 (Future Work)

[day-5 논문 핥기] Retrieval-Augmented Generation (RAG) for Knowledge-Intensive NLP Tasks

JiT (Just Image Transformers) 논문 리뷰

0개의 댓글

[day-6 논문 핥기] LORA: Low-Rank Adaptation of Large Language Models

reading papers

👉🏻 LoRA: Low-Rank Adaptation of Large Language Models by Microsoft

Full Summary

Problem State

Proposed Method

Experiments and Results

Low-Rank Updates 분석

Section Summary

Introduction

Problem Statement

Aren't Existing Solutions Good Enough?

Our Method

1. 저계급 파라미터화 업데이트 행렬 (Low-Rank-Parametrized Update Matrices)

2. Transformer에 LoRA 적용 (Applying LoRA to Transformer)

Empirical Experiments

1. Baselines (비교 기준 모델)

2. RoBERTa 및 DeBERTa 실험 (GLUE Benchmark)

3. GPT-2 실험 (NLG Tasks)

4. GPT-3 175B 실험 (Scaling Up)

Related Works

Understanding the Low-rank Updates

1. 어떤 가중치 행렬에 LoRA를 적용해야 하는가?

2. LoRA에 최적화된 Rank(rrr)는 무엇인가?

3. 업데이트 행렬(ΔWΔWΔW)은 원본 가중치(WWW)와 어떤 관계인가?

Conclusion and Future Work

결론 (Conclusion)

향후 연구 방향 (Future Work)

[day-5 논문 핥기] Retrieval-Augmented Generation (RAG) for Knowledge-Intensive NLP Tasks

JiT (Just Image Transformers) 논문 리뷰

0개의 댓글

2. LoRA에 최적화된 Rank( $r$ )는 무엇인가?

3. 업데이트 행렬( $ΔW$ )은 원본 가중치( $W$ )와 어떤 관계인가?