와 같이 표현.
WAW_AWA와 WBW_BWB는 출력 차원x랭크, 랭크x입력 차원의 행렬
학습 과정에서 WWW는 고정하고 WAW_AWA와 WBW_BWB만 업데이트 함
이를 통해 전체 파라미터 대비 매우 적은 수의 파라미터만 학습하게 되어, 메모리 사용량과 계산 비용을 크게 줄일 수 있음.
Stanford Alpaca
GPT-3 175B 실험
이미지 생성 모델
파라미터 효율성
학습 및 추론 속도
실제 활용도