Abstract
대형 언어 모델(LLM)의 미세 조정에는 막대한 GPU 메모리가 필요하며, 이로 인해 더 큰 모델을 사용하는 데 제약이 생깁니다. 로우랭크 적응(Low-Rank Adaptation) 기법의 양자화된 버전인 QLoRA는 이러한 문제를 상당 부분 완화하지만, 효율적인 LoRA 랭크(rank)를 찾는 것은 여전히 어려운 과제이며,QLoRA는 미리 정의된 랭크에서 학습되기 때문에, 더 낮은 랭크로 재구성하려면 추가적인 미세 조정 단계를 요구함
INTRODUCTION
자연어 처리의 많은 애플리케이션에서는 하나의 대규모 사전 학습 언어 모델을 여러 다운스트림 애플리케이션에 맞게 적응시키는 것이 필요합니다. 이러한 적응은 보통 fine-tuning을 통해 이루어지며, 이는 사전 학습된 모델의 모든 파라미터를 업데이트합니다. 그러나 fine-tuning의 주요 단점은 새로운 모델이 원래 모델과 동일한 수의 파라미터를 포함하게 된다는 점입니다. 많은 파라미터를 학습시는것은 시간도 오래 걸릴 뿐더러 비효율이 발생한다. 이를 해결하기 위해 많은 사람들이 일부 파라미터만 적응시키거나 새로운 작업을 위해 외부 모듈을 학습시키는 방법을 모색했습니다. 이렇게 하면 각 작업에 대해 사전 학습된 모델 외에 작업별 파라미터만 저장하고 로드하면 되므로, 배포 시 운영 효율성이 크게 향상됩니다. 하지만 기존 기법들은 모델 깊이를 확장하여 추론 지연 시간을 유발하거나,모델의 사용 가능한 시퀀스 길이를 줄이는 문제를 발생시킵니다. 더 중요한 것은, 이러한 방법들이 종종 파인튜닝 기준치에 미치지 못해 효율성과 모델 품질 사이의 트레이드오프가 발생한다는 점입니다. 그래서 저자들은 저차원 적응(LoRA, Low-Rank Adaptation) 접근 방식을 제안합니다. LoRA는 사전 학습된 가중치를 고정한 채, 모델 적응 동안 변화하는 밀집 계층의 랭크 분해 행렬을 최적화하여, 밀집 계층의 일부를 간접적으로 학습할 수 있게 합니다.
LoRA의 장점 :
용어
PROBLEM STATEMENT
AREN’T EXISTING SOLUTIONS GOOD ENOUGH?
Transfer learning이 시작된 이래 수십 개의 연구들이 모델 adaptation을 보다 파라미터 및 계산 효율적으로 만들기 위해 노력했다. 예를 들어 언어 모델링을 사용하면 효율적인 adaptation과 관련하여 두 가지 주요 전략이 있다.
OUR METHOD
LOW-RANK-PARAMETRIZED UPDATE MATRICES
위 수식은 pre-trained 모델의 weight W0에 low-rank matix B와 A로 표현된 변화량 ΔW를 더하여 입력 x에 대한 출력을 계산
APPLYING LoRA TO TRANSFORMER
Transformer 아키텍처에서 LoRA를 사용하여 학습 가능한 parameter 수를 줄임
연구는 attention weights에만 적용
메모리와 저장 공간 사용이 크게 줄어듦
Empirical Experiments
CONCLUSION AND FUTURE WORK
대한 언어 모델의 파인튜닝은 필요한 하드웨어와, 서로 다른 작업에 대해 독립적인 인스턴스를 호스팅하는 데 필요한 저장 및 전환 비용 측면에서 지나치게 비쌉니다. 저자들은 LoRA라는 효율적인 적응 전략을 제안하며, 이는 모델 품질을 유지하면서도 추론 지연 시간을 초래하지 않고 입력 시퀀스 길이를 줄이지 않습니다. 특히, 대부분의 모델 파라미터를 공유함으로써 서비스로 배포 시 빠른 작업 전환을 가능하게 합니다. 우리는 Transformer 언어 모델에 집중했지만, 제안된 원칙은 밀집 계층이 있는 모든 신경망에 일반적으로 적용할 수 있습니다.
https://kyujinpy.tistory.com/83
https://velog.io/@kameleon43/논문리뷰-LORA-LOW-RANK-ADAPTATION-OF-LARGE-LANGUAGE-MODELS
https://jeongwooyeol0106.tistory.com/106
https://velog.io/@bluein/paper-22
https://taeyuplab.tistory.com/12
https://velog.io/@quasar529/논문리뷰-LoRA-Low-Rank-Adaptation-of-Large-Language-Models