LoRa 이론

이상억·2025년 3월 18일

AI

목록 보기
5/5

1. LoRA의 기본 개념과 원리

기본 개념

  • Low-Rank Adaptation: LoRA는 이름 그대로 기존 모델의 가중치를 수정하지 않고, 그 업데이트 분을 저차원(저랭크) 행렬 두 개의 곱으로 표현.
  • 가중치 고정: 사전학습된 거대 모델의 파라미터 대부분을 동결(freeze)해 두고, 필요한 부분에만 추가적인 학습 가능한 파라미터(저랭크 행렬)를 도입.

동작 원리

  • 기존 모델의 특정 레이어 가중치 WW 대신,
    W=W+ΔW,ΔW=WA×WBW' = W + \Delta W , \Delta W = W_A \times W_B

와 같이 표현.

  • WAW_AWBW_B는 출력 차원x랭크, 랭크x입력 차원의 행렬

  • 학습 과정에서 WW는 고정하고 WAW_AWBW_B만 업데이트 함

  • 이를 통해 전체 파라미터 대비 매우 적은 수의 파라미터만 학습하게 되어, 메모리 사용량과 계산 비용을 크게 줄일 수 있음.


2. 기존 파인튜닝 기법과의 비교

기존 파인튜닝 기법

  • 전체 파인튜닝 (Full Fine-Tuning): 모델의 모든 가중치를 업데이트하여 작업별로 최적화.
    • 장점: 모델 전반에 걸친 섬세한 조정 가능.
    • 단점: 매개변수 수가 많아 메모리와 연산 비용이 크게 소모됨.
  • 어댑터(Adapters) 기반 미세조정: 각 레이어에 소규모 모듈을 추가해 파인튜닝.
    • 장점: 전체 파라미터 업데이트보다 효율적.
    • 단점: 추론 시 추가 모듈을 통과해야 하므로 약간의 지연 발생.

LoRA의 장점

  • 매우 적은 추가 파라미터
    • 전체 모델에 비해 0.1%~2% 수준의 파라미터만 업데이트하면 되므로 메모리와 연산 비용이 대폭 줄어듦
  • 빠른 학습 속도
    • 대부분의 가중치는 고정된 상태로, gradient 계산 부담이 줄어들어 학습 속도가 향상 됨
  • 성능 유지 및 개선
    • 불필요한 가중치 변경을 줄여 사전학습된 지식을 보존하며, 일부 작업에서는 전체 파인튜닝과 동등하거나 더 나은 성능을 보임
  • 추론 오버헤드 최소화
    • 학습 완료 후 추가 모듈을 모델 가중치에 병합(merge)할 수 있어, 추론 시 별도의 추가 연산 없이 기존 모델과 동일하게 동작
  • 유연한 확장성
    • 여러 작업에 대해 동일한 기반 모델을 공유하며, 작업별로 저장된 LoRA 모듈만 교체하여 쉽게 전환할 수 있음

3. 실제 적용 사례 및 성능 비교

대규모 언어 모델 파인튜닝

Stanford Alpaca

  • Meta의 LLaMA 7B 모델을 기반으로 사용자 지시문에 따라 응답을 생성하는 Alpaca 모델은, LoRA를 활용해 단 하나의 GPU로 몇 시간 내에 미세조정되었음. 결과적으로, 오리지널 Alpaca와 유사한 출력 품질을 보임.

GPT-3 175B 실험

  • 전체 파인튜닝에 비해 LoRA를 적용한 모델은 학습 파라미터가 약 0.3% 수준에 머무르면서도 WikiSQL, 자연어추론(NLI), 대화 요약 등 여러 벤치마크에서 동등하거나 소폭 개선된 성능을 기록.

이미지 생성 모델

  • Stable Diffusion: 텍스트-이미지 모델인 Stable Diffusion에도 LoRA가 적용되어, 특정 화풍이나 캐릭터를 소수의 데이터만으로 빠르게 학습시킬 수 있음. 전체 모델을 부분 미세조정하는 방식에 비해, 훨씬 빠르고 가벼운 파인튜닝이 가능해짐.
  • 커뮤니티에서는 다양한 스타일이나 도메인에 특화된 LoRA 모듈이 공유되고 있으며, 기존 모델에 손쉽게 병합하여 새로운 이미지 생성 능력을 부여하는 사례가 늘어나고 있음.

성능 비교 요약

  • 파라미터 효율성

    • LoRA는 전체 파인튜닝 대비 극소수의 파라미터만 업데이트하면서도, 모델 성능에서 큰 손실 없이 동등하거나 오히려 개선된 결과를 도출.
  • 학습 및 추론 속도

    • 적은 학습 파라미터 덕분에 학습 속도가 빠르고, 추론 시 추가 연산 부담 없이 기존 모델과 동일한 처리 속도를 유지할 수 있음.
  • 실제 활용도

    • 대규모 언어 모델, 이미지 생성 모델 등 다양한 분야에서 실제 적용되며, 비용 효율성과 운영상의 편리함을 입증받고 있음.
profile
이상억

0개의 댓글