모델이 커질수록 학습에 대한 비용이 증가하며 모든 파라미터에 대한 파인튜닝 또한 마찬가지다.
Low-Rank Adaptation 는 사전학습된 모델의 파라미터를 freezing해 다운스트림 작업에 대한 학습 파라미터의 수를 크게 줄인다.
We propose Low-Rank Adaptation, or LoRA, which freezes the pretrained model weights and injects trainable rank decomposition matrices into each layer of the Transformer architecture, greatly reducing the number of trainable parameters for downstream tasks.