rokmc1257_lse.log

rokmc1257_lse.log

LoRa 이론

이상억·2025년 3월 18일

AI

목록 보기

5/5

1. LoRA의 기본 개념과 원리

기본 개념

Low-Rank Adaptation: LoRA는 이름 그대로 기존 모델의 가중치를 수정하지 않고, 그 업데이트 분을 저차원(저랭크) 행렬 두 개의 곱으로 표현.
가중치 고정: 사전학습된 거대 모델의 파라미터 대부분을 동결(freeze)해 두고, 필요한 부분에만 추가적인 학습 가능한 파라미터(저랭크 행렬)를 도입.

동작 원리

기존 모델의 특정 레이어 가중치 $W$ 대신, $W' = W + \Delta W , \Delta W = W_A \times W_B$

와 같이 표현.

$W_A$ 와 $W_B$ 는 출력 차원x랭크, 랭크x입력 차원의 행렬
학습 과정에서 $W$ 는 고정하고 $W_A$ 와 $W_B$ 만 업데이트 함
이를 통해 전체 파라미터 대비 매우 적은 수의 파라미터만 학습하게 되어, 메모리 사용량과 계산 비용을 크게 줄일 수 있음.

2. 기존 파인튜닝 기법과의 비교

기존 파인튜닝 기법

전체 파인튜닝 (Full Fine-Tuning): 모델의 모든 가중치를 업데이트하여 작업별로 최적화.
- 장점: 모델 전반에 걸친 섬세한 조정 가능.
- 단점: 매개변수 수가 많아 메모리와 연산 비용이 크게 소모됨.
어댑터(Adapters) 기반 미세조정: 각 레이어에 소규모 모듈을 추가해 파인튜닝.
- 장점: 전체 파라미터 업데이트보다 효율적.
- 단점: 추론 시 추가 모듈을 통과해야 하므로 약간의 지연 발생.

LoRA의 장점

매우 적은 추가 파라미터
- 전체 모델에 비해 0.1%~2% 수준의 파라미터만 업데이트하면 되므로 메모리와 연산 비용이 대폭 줄어듦
빠른 학습 속도
- 대부분의 가중치는 고정된 상태로, gradient 계산 부담이 줄어들어 학습 속도가 향상 됨
성능 유지 및 개선
- 불필요한 가중치 변경을 줄여 사전학습된 지식을 보존하며, 일부 작업에서는 전체 파인튜닝과 동등하거나 더 나은 성능을 보임
추론 오버헤드 최소화
- 학습 완료 후 추가 모듈을 모델 가중치에 병합(merge)할 수 있어, 추론 시 별도의 추가 연산 없이 기존 모델과 동일하게 동작
유연한 확장성
- 여러 작업에 대해 동일한 기반 모델을 공유하며, 작업별로 저장된 LoRA 모듈만 교체하여 쉽게 전환할 수 있음

3. 실제 적용 사례 및 성능 비교

대규모 언어 모델 파인튜닝

Stanford Alpaca

Meta의 LLaMA 7B 모델을 기반으로 사용자 지시문에 따라 응답을 생성하는 Alpaca 모델은, LoRA를 활용해 단 하나의 GPU로 몇 시간 내에 미세조정되었음. 결과적으로, 오리지널 Alpaca와 유사한 출력 품질을 보임.

GPT-3 175B 실험

전체 파인튜닝에 비해 LoRA를 적용한 모델은 학습 파라미터가 약 0.3% 수준에 머무르면서도 WikiSQL, 자연어추론(NLI), 대화 요약 등 여러 벤치마크에서 동등하거나 소폭 개선된 성능을 기록.

이미지 생성 모델

Stable Diffusion: 텍스트-이미지 모델인 Stable Diffusion에도 LoRA가 적용되어, 특정 화풍이나 캐릭터를 소수의 데이터만으로 빠르게 학습시킬 수 있음. 전체 모델을 부분 미세조정하는 방식에 비해, 훨씬 빠르고 가벼운 파인튜닝이 가능해짐.
커뮤니티에서는 다양한 스타일이나 도메인에 특화된 LoRA 모듈이 공유되고 있으며, 기존 모델에 손쉽게 병합하여 새로운 이미지 생성 능력을 부여하는 사례가 늘어나고 있음.

성능 비교 요약

파라미터 효율성
- LoRA는 전체 파인튜닝 대비 극소수의 파라미터만 업데이트하면서도, 모델 성능에서 큰 손실 없이 동등하거나 오히려 개선된 결과를 도출.
학습 및 추론 속도
- 적은 학습 파라미터 덕분에 학습 속도가 빠르고, 추론 시 추가 연산 부담 없이 기존 모델과 동일한 처리 속도를 유지할 수 있음.
실제 활용도
- 대규모 언어 모델, 이미지 생성 모델 등 다양한 분야에서 실제 적용되며, 비용 효율성과 운영상의 편리함을 입증받고 있음.

이상억

이전 포스트

GPT-2 논문 리뷰

0개의 댓글