

거대 언어 모델이 새로운 태스크/도메인에 대한 적응 과정에서 가중치의 변화량()은 낮은 내재적 랭크(Low intrinsic rank)를 가진다
해당 가설이 등장한 배경
Embeddings:
Word: Vocab size(V) * Hidden size(H)
Position: Max sequence length(S) * H
Token Type: 1 * H
LayerNorm: 2* H (Weight + Bias)
Encoder Layers (L개 만큼 반복) :
Self Attention:
Weight: 4 (H H) (Q, K, V, O 각각 H*H)
Bias: 4 * H
LayerNorm: 2* H
Feed Forward Network:
(구조: H → 4H → H)
Intermediate: H * 4H + 4H (Weight + Bias)
Output: 4H * H + H (Weight + Bias)
LayerNorm: 2* H
RoBERTa-Base
Layer: 12, Hidden size: 768 (d=768), Vocab size: 50265
Embeddings: 약 39M
Encoder Layers: 약 85M
전체: 약
RoBERTa-Large
Layer: 24, Hidden size: 1024 (d=1024), Vocab size: 50265
Embeddings: 약 52M
Encoder Layers: 약 302M
전체: 약
Adapter Layers
트랜스포머 블록 사이에 파라미터 수가 적은 별도의 레이어(Adapter)를 삽입해 학습하는 방식
한계점: 추론 지연
파라미터의 수는 적지만 모델의 depth를 증가 시킴
Adapter는 순차적으로 처리되어야해 병목 현상이 발생

Prompt Tuning / Prefix Tuning
방법

Low-Rank Parameterized Update
Initialization
Scaling
Transformer에 LoRA를 적용하려면
배포 시
실험 환경
주요 성능 결과




왜 low rank로 충분한 건지? 왜 LoRA가 좋은 성능을 내는 건지? 에 대한 부분
어떤 가중치에 LoRA를 붙이는 것이 효과적인지?

LoRA의 최적의 Rank r은?

/ 에 적용 (는 단순 비교용)
에서 매우 작은 rank에서도 경쟁력 있는 성능을 보임
Rank를 늘린다고 해서 성능이 크게 더 좋아지지 않음

같은 rank, 다른 랜덤 시드에서의 부분공간 유사도 비교

와 는 어떤 관계인가?
