LoRA
https://arxiv.org/abs/2106.09685
๐ ๋๋ฆ์ ์์ฝ
์ค์ ๋ก ํ์ตํ๊ณ ์๋ ์ ๋ณด, ๋ ๊ฐ์ง: pre-trained weight(W0)์ A*B
LoRA: pre-trained๋ ๊ณ ์ ์ํค๊ณ , ์ฌ๊ธฐ์ ์ ์ฒด ์ ๋ณด ๋ง๊ณ , ์ข ๋ ์ ์ ์ ๋ณด๋ฅผ A,B์ ์ฎ๊ฒจ ๋ด์์ A*B๋ง ์
๋ฐ์ดํธ(adaptation)์ํค๊ฒ ๋ค!
pre-trained์ ์ ์ฒด ์ ๋ณด ๋ง๊ณ , ์ข ๋ ์ ์ ์ ๋ณด๋ก task์ ์ ์์ํค๊ฒ ๋ค!
ABSTRACT
- ๋ฐฐ๊ฒฝ
- ์์ฐ์ด ์ฒ๋ฆฌ ๊ณผ์ :
๋จผ์ ๋ฐฉ๋ํ ์์ ์ผ๋ฐ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ๋ชจ๋ธ์ ํ๋ จ โ ์ดํ์ ํน์ ํ ์์
์ด๋ ์ฃผ์ ์ ๋ง์ถฐ ๋ชจ๋ธ์ ์กฐ์
- ๋ชจ๋ธ์ด ์ปค์ง์๋ก full fine-tuning(๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ค์ ํ๋ จ์ํค๋ ๊ฒ)์ ํ์ค์ ์ผ๋ก ์ด๋ ค์
์ ์
- Low-Rank Adaptation, LoRA๋ฅผ ์ ์
- ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ๋๋ถ๋ถ์ ๊ณ ์ (freeze)ํ๊ณ ,
- Transformer ์ํคํ
์ฒ์ ๊ฐ ๋ ์ด์ด์ ์ผ๋ถ ํ์ต ๊ฐ๋ฅํ ๋ญํฌ ๋ถํด ํ๋ ฌ(rank decomposition matrices)์ ์ฝ์
ํ์ผ๋ก์จ, ์ผ๋ถ ํ๋ผ๋ฏธํฐ๋ง ์ถ๊ฐ
- ๋ค์ด์คํธ๋ฆผ ์์
์ ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ ์๋ฅผ ํฌ๊ฒ ์ค์
ํจ๊ณผ
- downstream task๋ฅผ ์ํด ํ์ํ ํ๋ผ๋ฏธํฐ ์๋ฅผ ํฌ๊ฒ ์ค์
- ํ์ต ํ๋ผ๋ฏธํฐ๋ ๋ ์ ๊ณ ํ๋ จ ์๋๊ฐ ๋ ๋น ๋ฅด์ง๋ง,
์ฑ๋ฅ ๋ฉด์์๋ ๊ธฐ์กด ํ์ธํ๋ ๋ฐฉ๋ฒ๊ณผ ๋น์ทํ๊ฑฐ๋ ๋ ์ข์.
- adapters์ฒ๋ผ ์ถ๋ก ์๋๊ฐ ๋๋ ค์ง์ง ์์์ ํจ์จ์ ์
- Rank-deficiency์ด ์ธ์ด ๋ชจ๋ธ ์ ์์ ์ด๋ค ์ํฅ์ ๋ฐํ์ผ๋ก, LoRA๊ฐ ์ ํจ์จ์ ์ธ์ง ์ค๋ช
- https://github.com/microsoft/LoRA
- LoRA์ PyTorch ๋ชจ๋ธ์ ํตํฉ์ ์ฉ์ดํ๊ฒ ํ๋ ํจํค์ง๋ฅผ ์ถ์ํ๊ณ , RoBERTa, DeBERTa, GPT-2์ ๋ํ ๊ตฌํ ๋ฐ ๋ชจ๋ธ ์ฒดํฌํฌ์ธํธ๋ฅผ ์ ๊ณต
๐ก์ฉ์ด ์ ๋ฆฌ
Adaptation
- ๊ธฐ์กด ๋ชจ๋ธ์ ์๋ก์ด ์์
์ด๋ ๋ฐ์ดํฐ์
์ ๋ง๊ฒ ์กฐ์ ํ๋ ๊ณผ์
- ์๋ฅผ ๋ค์ด, ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ํน์ ํ์คํฌ์ ๋ง๊ฒ fine-tuning ํ๋ ์์
์ด ํฌํจ๋จ.
Adapters
๊ธฐ์กด ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ทธ๋๋ก ๋๊ณ ,
์๋ก์ด ์์
์ ๋ง๋ ์์ ๋ชจ๋๋ง ์ถ๊ฐํ์ฌ ๋ฐ์ดํฐ์
์ ๋ง๊ฒ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ. ์ด๋ ๊ฒ ์ถ๊ฐ๋ ์์ ๋ชจ๋์ด ๋ชจ๋ธ์ ๋น ๋ฅด๊ฒ ์ต์ ํํ ์ ์๋๋ก ๋์.
Rank
ํ๋ ฌ์์ ์ ํ ๋
๋ฆฝ์ ์ธ ํ ๋๋ ์ด์ ๊ฐ์. ํ๋ ฌ์ ๋ญํฌ๋ ๊ทธ ํ๋ ฌ์ด ๋ด๊ณ ์๋ ์ ๋ณด์ ์ฐจ์์ ๋ํ๋
๋๋ค.
A = [1 2]
[2 4]
ํ๋ ฌ A๋ ๋ ๋ฒ์งธ ํ์ด ์ฒซ ๋ฒ์งธ ํ์ 2๋ฐฐ์ด๋ฏ๋ก Rank๋ 1.
์ฆ, ๋
๋ฆฝ์ ์ธ ์ ๋ณด๋ ํ๋๋ง ์์.
Rank-deficiency
Rank-deficiency(๋ญํฌ ๊ฒฐํ)์ ํ๋ ฌ์ Rank๊ฐ ์ต๋ ๊ฐ๋ฅํ ๊ฐ๋ณด๋ค ๋ฎ์ ์ํ. ์ฆ, ํ๋ ฌ์ด ์ถฉ๋ถํ ๋
๋ฆฝ์ ์ธ ์ ๋ณด๋ฅผ ๋ด์ง ๋ชปํ๊ฑฐ๋ ์ค๋ณต๋ ๋ฐ์ดํฐ๋ฅผ ํฌํจํ๋ ์ํฉ์ ์๋ฏธ.
์ต๋ ๋ญํฌ๋ ํ๋ ฌ์ column ์์ row ์ ์ค ์์ ๊ฐ์ ํด๋นํจ.
๋ฐ๋ผ์, Rank๊ฐ ์ด ์๋ ํ ์๋ณด๋ค ์ ์ผ๋ฉด ๋ญํฌ ๊ฒฐํ ์ํ๊ฐ ๋ฉ๋๋ค.
B = [1 2 3]
[2 4 6]
[3 6 9]
ํ๋ ฌ B์ ์ต๋ ๋ญํฌ๋ 3์ด์ด์ผ ํ์ง๋ง,
์ธ ๊ฐ์ ํ์ด ๋ชจ๋ ์ ํ์ ์ผ๋ก ์ข
์์ ์ด๋ฏ๋ก, ๋ญํฌ๋ 1.
๋ฐ๋ผ์, Rank-deficiency ์ํ์
๋๋ค.
1. INTRODUCTION
๋ฐฐ๊ฒฝ
- ๊ธฐ์กด์ โ์์ฐ์ด ์ฒ๋ฆฌโ์์์ ํน์ task ํ์ต ๋ฐฉ๋ฒ
- ๋ณดํต pre-trained ๋ชจ๋ธ์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ๋ fine-tuning
- ๋ฌธ์ ์ :
- ์๋ก์ด ๋ชจ๋ธ๋ ์๋ ๋ชจ๋ธ๊ณผ ๊ฐ์ ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง.
- ํนํ, ๋ชจ๋ธ์ด ์ปค์ง์๋ก ํฐ ๋ฌธ์ (e.g. GPT-3)
- ๊ธฐ์กด ์ฐ๊ตฌ์ ๋ฌธ์ ์
- ๊ธฐ์กด์ ํ๊ณ, ์ฆ ํ๋ผ๋ฏธํฐ ์๊ฐ ๋๋ฌด ๋ง์์ง๋ ๋ฌธ์ ๋ฅผ ์ํํ๊ณ ์ ํ๋ ์ฐ๊ตฌ๋ค
- ์ผ๋ถ ํ๋ผ๋ฏธํฐ๋ง ์กฐ์ ํ๊ฑฐ๋ ์ธ๋ถ ๋ชจ๋์ ์ถ๊ฐํ์ฌ ์์์ ํ๋ผ๋ฏธํฐ๋ง ์ถ๊ฐ๋ก ์ ์ฅ
- ํ๊ณ
- ๋ชจ๋ธ์ ๊น์ด๋ฅผ ๋๋ ค ์ถ๋ก ์๋๊ฐ ๋๋ ค์ง๊ฑฐ๋,
- ์ฌ์ฉํ ์ ์๋ ์ํ์ค ๊ธธ์ด๊ฐ ์ค์ด๋ฆ = ๋ชจ๋ธ์ด ์ฒ๋ฆฌํ ์ ์๋ ๋ฐ์ดํฐ์ ๊ธธ์ด๊ฐ ์ค์ด๋ฆ.
- ํจ์จ์ฑ๊ณผ ๋ชจ๋ธ ํ์ง ์ฌ์ด์ trade-off
LoRA์ ์ ์ ๋ฐ ์๊ฐ
- ๊ธฐ์กด ์ฐ๊ตฌ "๊ณผ๋งค๊ฐ๋ณ์ํ ๋ชจ๋ธ(over-parameterized model)์ด ์ฌ์ค ๋ฎ์ ์ฐจ์(low intrinsic dimension)์ ์กด์ฌํ๋ค"์์ ์๊ฐ
- over-parameterized model: ์ธ์ด๋ชจ๋ธ์ด ์ปค์ง๋ฉด์, ์ปค์ง๋งํผ ๋ชธ๊ฐ์ ํ๋์ง.
e.g) GPT-3 โ 175B๊ฐ์ ํ๋ผ๋ฏธํฐ๋ค์ด ๋ค ์ ์ญํ ์ ํ๊ณ ์๋์ง
โ ์์ฒญ๋๊ฒ ๋ง์ ์์ ํ๋ผ๋ฏธํฐ๋ค์ด ์ ๋ถ ํ์ํ ๊ฒ์ธ๊ฐ?
์ค์ ๋ก๋ ๋ฎ์ ๋ด์ฌ ์ฐจ์์ ์์ง ์์๊น? ๋ผ๋ ๊ฐ์ ์ ๋ฐํ์ผ๋ก ํจ
intrinsic dimension
= ๋ด๋ถ์ ์นจํฌํด ์๋ ์ ๋ณด = ์ง์ง ํ์ํ ์ผ๋ถ์ ์ ๋ณด
โ ์ด๋ฅผ ์ฐพ์์ ์๊ฒ๋ง ํ์ต์ํค์!
(๋๋ฌด ํฐ ๋ชจ๋ธ โ ํจ์จ์ ์ธ ํ์ต์ ์ํด)
โ ๋ชจ๋ธ์ ๊ฐ์ค์น ๋ณํ๋ low-rank๋ฅผ ๊ฐ์ง๋ค๊ณ ๊ฐ์ ํ์ฌ, LoRA ๋ฐฉ๋ฒ์ ์ ์
low-rank
- rank : ํ๋ ฌ์์ ํต์ฌ์ ์ธ ์ ๋ณด๊ฐ ๋ด๊ฒจ ์๋ ๊ฒ
- low-rank : ํต์ฌ ์ ๋ณด ์ค์ ์ ์, ์ ๋ง ํต์ฌ์ธ ์ ๋ณด
e.g) GPT-3 175B - ์ ์ฒด ๋ญํฌ๊ฐ ๋งค์ฐ ๋์๋ ๋งค์ฐ ๋ฎ์ ๋ญํฌ(1 ๋๋ 2)๋ก๋ ์ถฉ๋ถํ ์๋ํ๋ฏ๋ก, LoRA๋ ์ ์ฅ ๋ฐ ๊ณ์ฐ ์ธก๋ฉด์์ ๋งค์ฐ ํจ์จ์
LoRA์ ํจ์จ์ฑ ๋ฐ ์ฅ์

[Figure 1] reparametrization ๊ตฌ์กฐ. ์ค์ง A์ B๋ง ํ๋ จ
- Pretrained Weights (ํ๋์ ๋ธ๋ก) : ์ด๋ฏธ ํ๋ จ๋ ๋ชจ๋ธ์ ๊ฐ์ค์น W๋ฅผ ๋ํ๋. ์ด ๊ฐ์ค์น๋ค์ ๊ณ ์ ๋์ด ์์ผ๋ฉฐ, ๋ฐ๊พธ์ง ์์.
- x: ์
๋ ฅ ๋ฐ์ดํฐ ๋ฒกํฐ๋ก, ๋ชจ๋ธ์ ์
๋ ฅ๋๋ ์ ๋ณด (d์ฐจ์)
- h: ์ถ๋ ฅ ๋ฐ์ดํฐ ๋ฒกํฐ๋ก, ๋ชจ๋ธ์ด ์์ฑํ๋ ๊ฒฐ๊ณผ
- A์ B ํ๋ ฌ: ์ด ๋ ์ค๋ ์ง์ ์ผ๊ฐํ์ ํ์ต ๊ฐ๋ฅํ ์ ๋ญํฌ ํ๋ ฌ
โ LoRA๋ ์ด ๋ ํ๋ ฌ์ ์ต์ ํํ์ฌ ๋ชจ๋ธ์ด ์๋ก์ด task์ ์ ์ํ๋๋ก ๋์
A : ํ๊ท ์ด 0์ด๊ณ ๋ถ์ฐ์ด ฯ^2์ธ ์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ํ์ต ๊ฐ๋ฅํ ์ ๋ญํฌ ํ๋ ฌ. (d * r)
B : ์ด๊ธฐ ๊ฐ์ด 0์ธ ์ ๋ญํฌ ํ๋ ฌ. (r * d)
- r : r๋ A์ B ํ๋ ฌ์ ์ฐจ์ ์ (hidden layer์ ๋
ธ๋ ๊ฐ์), low-rank
1. pre-trained ๋ชจ๋ธ์ ๊ณ ์ ํ ์ฑ๋ก, ํน์ task๋ฅผ ์ํ ์์ LoRA ๋ชจ๋๋ง ๋ฐ๊พธ๋ฉด ๋จ ([๊ทธ๋ฆผ 1]์ A์ B ํ๋ ฌ๋ง ๊ต์ฒดํ๋ฉด ๋จ)
โ ํจ์จ์ ์ธ ์์
์ ํ, ์ ์ฅ ๊ณต๊ฐ ์ ์ฝ
2. ๋๋ถ๋ถ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณ ์ ํ๊ณ , ์์ ์ ๋ญํฌ ํ๋ ฌ๋ง ์ต์ ํ
โ ํจ์จ์ ์ธ ํ์ต, ํ์ํ ํ๋์จ์ด ์์ ๊ฐ์
โ ํ๋์จ์ด ์ง์
์ฅ๋ฒฝ์ ์ต๋ 3๋ฐฐ ๋ฎ์ถค
3. ๋จ์ํ ์ ํ ์ค๊ณ๋ก, ๋ฐฐํฌ ์ ํ์ต ๊ฐ๋ฅํ ํ๋ ฌ์ ๊ณ ์ ๋ ๊ฐ์ค์น์ ๊ฒฐํฉํ ์ ์๊ฒ ํจ
โ fine-tuning์ ๋นํด inference(์ถ๊ฐ ํ์ต)์ด ์๋๋ก ํจ
4. ๋ค๋ฅธ ๊ธฐ์กด ๋ฐฉ๋ฒ(e.g. prefix-tuning )๊ณผ ํจ๊ป ์ฌ์ฉํ ์ ์์
โ ์์๋ ๋
ผ๋ฌธ ๋ถ๋กE์ ์ ๊ณต
Terminologies and Conventions (์ฉ์ด ๋ฐ ๊ท์น)
์ด ๋
ผ๋ฌธ์์๋ Transformer ์ํคํ
์ฒ์ ๊ด๋ จ๋ ๊ธฐ์กด ์ฉ์ด๋ค์ ์ฌ์ฉ
- dmodel: ๋ชจ๋ธ์ ์
๋ ฅ ๋ฐ ์ถ๋ ฅ ์ฐจ์
- Wq, Wk, Wv, Wo:
self-attention ๋ชจ๋์์์ query/key/value/output projection ํ๋ ฌ
- W ๋๋ W0 : original ์ฌ์ ํ๋ จ๋ ๊ฐ์ค์น ํ๋ ฌ (GPT-3์์์ 175B ํ๋ผ๋ฏธํฐ ์ ์ฒด)
- โW๋ ์ ์ ์ค ๋์ ๋ ๊ทธ๋๋์ธํธ ์
๋ฐ์ดํธ
- r: LoRA ๋ชจ๋์ ๋ญํฌ (low-rank)
- Adam ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ ์ฌ์ฉ
- Transformer MLP feedforward ์ฐจ์์ d_f fn = 4 ร dmodel๋ก ์ฌ์ฉ.
2. PROBLEM STATEMENT
์ฃผ์ ์ฌ๋ก๋ก์ โ์ธ์ด ๋ชจ๋ธ๋ง ๋ฌธ์ โ๋ฅผ ์ค๋ช
-
์ธ์ด ๋ชจ๋ธ๋ง ๋ฌธ์ ๊ฐ์
- ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ: autoregressive language model = P_ฮฆ(y|x)
- Pฮฆ(y|x)๋ ์
๋ ฅ x๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ถ๋ ฅ y๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ
- ์ด ๋ชจ๋ธ์ ์ฌ๋ฌ ์์
์ ์ฒ๋ฆฌ ๊ฐ๋ฅ, e.g) GPT
- ฮฆ๋ก ๋งค๊ฐ๋ณ์ํ
- ์ด ๋ชจ๋ธ์ ํ์ ์์
์ ์ ์์ํค๋ ๊ฒ์ ๊ณ ๋ ค
- ํ์ ์์
: ์์ฝ, ๊ธฐ๊ณ ๋
ํด(MRC), ์์ฐ์ด์์ SQL(NL2SQL)
-
ํ๋ จ ๋ฐ์ดํฐ์
- ๊ฐ ํ์ ์์
์ context-target ์์ ํ๋ จ ๋ฐ์ดํฐ์
์ผ๋ก ํํ:
Z = {(xi, yi)}i=1,..,N์์ xi์ yi๋ ๋ชจ๋ ํ ํฐ์ ์ํ์ค
-
์์
์์
- NL2SQL โ xi : ์์ฐ์ด ์ฟผ๋ฆฌ, yi: SQL ๋ช
๋ น์ด
- ์์ฝ โ xi: ๊ธฐ์ฌ ๋ด์ฉ, yi: ์์ฝ
-
full fine-tuning
- ๋ชจ๋ธ์ ์ฌ์ ํ๋ จ๋ ๊ฐ์ค์น๋ก ฮฆ0๋ก ์ด๊ธฐํํ๊ณ , ์กฐ๊ฑด๋ถ ์ธ์ด ๋ชจ๋ธ๋ง ๋ชฉํ๋ฅผ ์ต๋ํํ๊ธฐ ์ํด ๊ฐ์ค์น๋ฅผ ฮฆ0 + โฮฆ๋ก ์
๋ฐ์ดํธํฉ๋๋ค.

-
full fine-tuning์ ๋ฌธ์ ์
- ๊ฐ ํ์ ์์
๋ง๋ค โฃฮฆ0|์ ๋์ผํ ์ฐจ์์ ๋ค๋ฅธ ํ๋ผ๋ฏธํฐ ์งํฉ ฮฮฆ๋ฅผ ํ์ตํด์ผ ํ๋ค๋ ๊ฒ.
- ๋ฐ๋ผ์ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ด ๋งค์ฐ ํฐ ๊ฒฝ์ฐ, ๋ฏธ์ธ ์กฐ์ ๋ ๋ชจ๋ธ์ ์ฌ๋ฌ ๋
๋ฆฝ์ ์ธ ์ธ์คํด์ค๋ฅผ ์ ์ฅํ๊ณ ๋ฐฐํฌํ๋ ๊ฒ์ด ์ด๋ ต๊ฑฐ๋ ๋ถ๊ฐ๋ฅํ ์ ์์.
-
parameter-efficient approach (LoRA?)
- ํจ์จ์ ์ธ ์ ๊ทผ๋ฒ: ๋ ์์ ํ๋ผ๋ฏธํฐ ฮ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํจ์จ์ ์ผ๋ก.
- ์์ ํ๋ผ๋ฏธํฐ ์ต์ ํ: ํฐ ํ๋ผ๋ฏธํฐ ์งํฉ ๋์ ์์ ํ๋ผ๋ฏธํฐ ์งํฉ ฮ๋ฅผ ์ต์ ํํ์ฌ ๋ชจ๋ธ์ ์กฐ์ ํฉ๋๋ค.

-
์ ๋ญํฌ ํํ ์ฌ์ฉ ์ ์:
- ๊ณ์ฐ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก โฮฆ๋ฅผ ์ธ์ฝ๋ฉํ๊ธฐ ์ํด low-rankํํ์ ์ฌ์ฉํ๋ ๊ฒ์ ์ ์
- e.g) ์ฌ์ ํ๋ จ๋ GPT-3 175B์ ๊ฒฝ์ฐ, ํ๋ผ๋ฏธํฐ โฃฮโฃ์ ์๋ โฃฮฆ0โฃ์ 0.01%๋งํผ ๋งค์ฐ ์์์ง ์ ์์
3. ARENโT EXISTING SOLUTIONS GOOD ENOUGH
๊ธฐ์กด ์๋ฃจ์
์ผ๋ก๋ ์ถฉ๋ถํ์ง ์์
๊ธฐ์กด ์๋ฃจ์
- transfer learning์ด ๋ฑ์ฅํ ์ดํ, ํ๋ผ๋ฏธํฐ์ ๊ณ์ฐ์ ํจ์จ์ ์ผ๋ก adaptation(์ ์)ํ๊ณ ์ํ๋ ์ฐ๊ตฌ ๋ง์
- transfer learning(์ ์ด ํ์ต) : ์ด๋ฏธ ํ์ต๋ ๋ชจ๋ธ์ ์๋ก์ด ๊ด๋ จ ์์
์ ์ ์ฉํ์ฌ ํ์ต ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๊ธฐ๋ฒ (๋ ๋ง์ ์ฐ๊ตฌ ๋ด์ฉ์ 6์ฅ ์ฐธ๊ณ )
- ์ธ์ด ๋ชจ๋ธ๋ง์ ๊ฒฝ์ฐ ์ฃผ๋ก ๋ ๊ฐ์ง ์ฃผ์ ์ ๋ต
- ์ด๋ํฐ ๋ ์ด์ด ์ถ๊ฐ: ์ด๋ํฐ ๋ ์ด์ด๋ฅผ ๊ฐ๊ฐ์ ๋ ์ด์ด์ ์ฝ์
- ์
๋ ฅ ๋ ์ด์ด ํ์ฑํ ์ต์ ํ: ์
๋ ฅ ๋ ์ด์ด์ ํ์ฑํ๋ฅผ ์กฐ์ ํ์ฌ ๋ชจ๋ธ์ ์ ์์ํค๋ ๋ฐฉ๋ฒ.
โ ๊ทธ๋ฌ๋ ๋ ๊ฐ์ง ์ ๋ต ๋ชจ๋, ๋๊ท๋ชจ ์์คํ
or ์ง์ฐ ์๊ฐ์ด ์ค์ํ ๊ฒฝ์ฐ โ ํ๊ณ
๊ธฐ์กด ์๋ฃจ์
์ ํ๊ณ
Adapter Layers Introduce Inference Latency
์ด๋ํฐ ๋ ์ด์ด๋ ์ถ๋ก ์ง์ฐ์ ์ ๋ฐํฉ๋๋ค.
โ sequentially ํ ๊ณ์ฐ์ผ๋ก ์ธํด ์ถ๋ก ์ ์ง์ฐ(Inference Latency)์ ์ ๋ฐํ๋ค
์ฃผ์ ์ค๊ณ : ๋ ๊ฐ์ง ์ฃผ์ ์ค๊ณ๊ฐ ์์ต๋๋ค:
- Houlsby et al. (2019): Transformer ๋ธ๋ก๋ง๋ค ๋ ๊ฐ์ ์ด๋ํฐ ๋ ์ด์ด.
- Lin et al. (2020): Transformer ๋ธ๋ก๋ง๋ค ํ๋์ ์ด๋ํฐ ๋ ์ด์ด์ ์ถ๊ฐ LayerNorm.
- ํจ๊ณผ
- ์ง์ฐ ์๊ฐ ๊ฐ์ ๋ฐฉ๋ฒ: ๋ ์ด์ด๋ฅผ ์ค์ด๊ฑฐ๋ ๋ค์ค ์์
์ ์ฌ์ฉํ์ฌ ์ง์ฐ ์๊ฐ์ ์ค์ผ ์ ์์ต๋๋ค.
- ์ถ๊ฐ ๊ณ์ฐ ๋ฌธ์ : ์ด๋ํฐ ๋ ์ด์ด์์ ๋ฐ์ํ๋ ์ถ๊ฐ ๊ณ์ฐ์ ์์ ํ ํผํ ๋ฐฉ๋ฒ์ ์์ต๋๋ค.
- ์ด๋ํฐ ๋ ์ด์ด๋ ์์ ๋ณ๋ชฉ ์ฐจ์์ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ํ๋ผ๋ฏธํฐ ์๊ฐ ์ ์ต๋๋ค.
- ๋ฐ๋ผ์ ์ด๋ํฐ ๋ ์ด์ด๊ฐ ์ถ๊ฐํ๋ ๊ณ์ฐ๋์ด ์ ํ์ ์ด๋ฏ๋ก ํฐ ๋ฌธ์ ๊ฐ ์๋ ๊ฒ์ฒ๋ผ ๋ณด์
๋๋ค.
- ํ๊ณ
- ๋๊ท๋ชจ ์ ๊ฒฝ๋ง์ ์ง์ฐ ์๊ฐ์ ๋ฎ์ถ๊ธฐ ์ํด ํ๋์จ์ด ๋ณ๋ ฌ ์ฒ๋ฆฌ๋ฅผ ์ฌ์ฉํ๋ฉฐ, ์ด๋ํฐ ๋ ์ด์ด๋ ์์ฐจ์ ์ผ๋ก ์ฒ๋ฆฌ๋์ด์ผ ํจ. โ ๋ฐฐ์น ํฌ๊ธฐ๊ฐ ์์ ์จ๋ผ์ธ ํ๊ฒฝ์์ ๋ ๋๋๋ฌ์ง.
- ๋ชจ๋ธ ๋ณ๋ ฌ ์ฒ๋ฆฌ๊ฐ ์๋ ์ผ๋ฐ์ ์ธ ์๋๋ฆฌ์ค, (๋จ์ผ GPU์์ GPT-2 ์ค๊ฐ ํฌ๊ธฐ ๋ชจ๋ธ๋ก ์ถ๋ก ์ ์คํํ๋ ๊ฒฝ์ฐ, ๋งค์ฐ ์์ ๋ณ๋ชฉ ์ฐจ์์์๋ ์ด๋ํฐ๋ฅผ ์ฌ์ฉํ ๋ ์ง์ฐ ์๊ฐ์ด ๋์ ๋๊ฒ ์ฆ๊ฐํ๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค(ํ 1).

- ๋ชจ๋ธ ์ค๋ฉ ๋ฌธ์ : ๋ชจ๋ธ์ ์ฌ๋ฌ ์กฐ๊ฐ์ผ๋ก ๋๋ ๋ ๋ฌธ์ ๊ฐ ๋ ์ฌํด์ง๋๋ค.
- ์ถ๊ฐ ๋๊ธฐ GPU ์์
: ๋ ๋ง์ ๋๊ธฐํ ์์
์ด ํ์ํด์ง๊ธฐ ๋๋ฌธ์
๋๋ค.
- ์ค๋ณต ์ ์ฅ ํ์: ์ด๋ํฐ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ๋ฌ ๋ฒ ์ค๋ณต ์ ์ฅํ์ง ์์ผ๋ฉด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ด๋ ต์ต๋๋ค.
Diretly Optimizing the Prompt is Hard
ํ๋กฌํํธ(prefix ํ๋)๋ฅผ ์ง์ ์ต์ ํํ๋ ๊ฒ์ ์ด๋ ต๋ค
-
Prefix Tuning๊ณผ ๊ฐ์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค๋ ํด๊ฒฐํด์ผ ํ๋ ๋ฌธ์ ๊ฐ ์์
- ์ต์ ํ๊ฐ ์ด๋ ต๊ณ , ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ์ผ์ ํ์ง ์์
- ์ ์์ ์ํด ํ
์คํธ ๊ธธ์ด์ ์ผ๋ถ๋ฅผ ์ฌ์ฉํ๋ฉด, ์ค์ ์์
์ ์ฌ์ฉํ ์ ์๋ ํ
์คํธ ๊ธธ์ด๊ฐ ์ค์ด๋ฆ
- ์ด๋ก ์ธํด ํ๋กฌํํธ ํ๋์ ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์์
Prefix Tuning
๋ชจ๋ธ์ด ์ฃผ์ด์ง ์์
์ ๋ง๊ฒ ์๋ตํ๋๋ก, ์
๋ ฅ ํ
์คํธ ์์ ์งง์ ํ๋ฆฌํฝ์ค๋ฅผ ์ถ๊ฐํ์ฌ ๋ชจ๋ธ์ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ.
-
์์
- ๊ธฐ๋ณธ ์
๋ ฅ: "๋ ์จ๊ฐ ์ด๋?"
- ํ๋ฆฌํฝ์ค ์ถ๊ฐ ํ ์
๋ ฅ: "์ง๋ฌธ: ๋ ์จ๊ฐ ์ด๋?"
- ํ๋ฆฌํฝ์ค ํ๋: ๋ชจ๋ธ์ด "์ง๋ฌธ:"์ด๋ผ๋ ํ๋ฆฌํฝ์ค๋ฅผ ๋ณด๊ณ , ์ด ์
๋ ฅ์ด ์ง๋ฌธ์ ๋ํ ๋ต์ ์๊ตฌํ๋ค๋ ๊ฒ์ ์๊ฒ ๋ฉ๋๋ค.
-
๋ฌธ์ ์
- ํ๋ฆฌํฝ์ค๋ฅผ ์ถ๊ฐํ๋ฉด, ์ค์ ๋ก ์์
์ ์ฒ๋ฆฌํ ์ ์๋ ํ
์คํธ ๊ธธ์ด๊ฐ ์ค์ด
-
๋ฌธ์ ์ ์์
- ๋ชจ๋ธ์ ํ๊ณ: ๋ชจ๋ธ์ด ํ ๋ฒ์ 100์์ ํ
์คํธ๋ง ์ฒ๋ฆฌํ ์ ์๋ค๊ณ ๊ฐ์ ํฉ๋๋ค.
- ํ๋ฆฌํฝ์ค ์ถ๊ฐ ์ : "์ด ๊ณ์ฝ์โฆโ
- ํ๋ฆฌํฝ์ค ์ถ๊ฐ ํ: "๋ค์ ํ
์คํธ๋ฅผ ๋ฒ์ ๋ฌธ์ ํ์์ผ๋ก ์์ฑํด ์ฃผ์ธ์: ์ด ๊ณ์ฝ์...โ
โ ์ฌ์ฉ ๊ฐ๋ฅํ ํ
์คํธ ๊ธธ์ด ๊ฐ์: ํ๋ฆฌํฝ์ค๋ฅผ ์ถ๊ฐํ๋ฉด, ์ค์ ์ค์ํ ์ ๋ณด๊ฐ ์ฐจ์งํ ์ ์๋ ๊ณต๊ฐ์ด ์ค์ด๋ฆ
4. OUR METHOD
- LoRA์ ๊ฐ๋จํ ์ค๊ณ์ ์ค์ฉ์ ์ธ ์ฅ์ ์ ์ค๋ช
ํฉ๋๋ค.
- ์ ์ฉ ๋ฒ์: LoRA๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋ชจ๋ ๋ฐ์ง ์ธต์ ์ ์ฉํ ์ ์์ง๋ง, ์ฐ๋ฆฌ๋ ์คํ์์ Transformer ์ธ์ด ๋ชจ๋ธ์ ํน์ ๊ฐ์ค์น์ ์ง์ค
4.1 LOW-RANK-PARAMETRIZED UPDATE MATRICES
- ์๊ฐ
- ์ ๊ฒฝ๋ง์ ํ๋ ฌ ๊ณฑ์
์ ์ํํ๋ ๋ง์ ๋ฐ์ง ์ธต์ ํฌํจํฉ๋๋ค. ์ด๋ฌํ ์ธต์ ๊ฐ์ค์น ํ๋ ฌ์ ์ผ๋ฐ์ ์ผ๋ก ํ๋ญํฌ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
- ํน์ ์์
์ ์ ์ํ ๋, ์ฌ์ ํ๋ จ๋ ์ธ์ด ๋ชจ๋ธ์ด ๋ฎ์ ๋ด์ฌ์ ์ฐจ์์ ๊ฐ์ง๋ฉฐ, ์์ ๊ณต๊ฐ์ผ๋ก ํฌ์๋์ด๋ ์ฌ์ ํ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์๋ค.
- ๊ฐ์
- ๊ฐ์ค์น ์
๋ฐ์ดํธ๋ ์ ์(adaptation) ์ค โintrinsic dimensionโ๊ฐ ๋ฎ๋ค๊ณ ๊ฐ์
- ์ฌ์ ํ๋ จ๋ ๊ฐ์ค์น ํ๋ ฌ W0๋ฅผ ๋ฎ์ ๋ญํฌ ๋ถํด W0+ฮW=W0+BA๋ก ํํํ์ฌ ์
๋ฐ์ดํธ
- W0โRdรk
- B์ A๋ ์์ ๋ญํฌ๋ฅผ ๊ฐ์ง, W0๋ฅผ ์
๋ฐ์ดํธํ๋ ๋ฐ ์ฌ์ฉ
- BโR^(dรr), AโR^(rรk)
- ๋ญํฌ r โช min(d,k)
- ํ๋ จ ์ค W0๋ ๊ณ ์
- A์ B๋ ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ
- ฮW=BA๋ ๋์ผํ ์
๋ ฅ๊ณผ ๊ณฑํด์ง๊ณ , ๊ฒฐ๊ณผ๋ ํฉ์ฐ๋ฉ๋๋ค.
- h=W_0x์ ๋ํด ์์ ๋ ์์ ํ๋ ๋ค์๊ณผ ๊ฐ์ ๊ฒฐ๊ณผ(3)๋ฅผ ์์ฑ


์ฌ๋งค๊ฐ๋ณ์ํ ์ค๋ช
: ๊ทธ๋ฆผ 1์์ ์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ ๋ฐฉ๋ฒ์ ์ค๋ช
ํฉ๋๋ค.
A๋ ๋๋ค ๊ฐ์ฐ์์ ๊ฐ์ผ๋ก, B๋ 0์ผ๋ก ์ด๊ธฐํํ์ฌ ํ๋ จ ์์ ์ โW = BA๊ฐ 0์ด ๋๋๋ก ํฉ๋๋ค.
๊ทธ ๋ค์ โW x๋ฅผ ฮฑ/r๋ก ์ค์ผ์ผ๋งํฉ๋๋ค. ์ฌ๊ธฐ์ ฮฑ๋ r ๋ด์ ์์์
๋๋ค. Adam์ ์ฌ์ฉํ์ฌ ์ต์ ํํ ๋, ์ด๊ธฐํ๋ฅผ ์ ์ ํ ์ค์ผ์ผ๋งํ๋ฉด ฮฑ๋ฅผ ์กฐ์ ํ๋ ๊ฒ์ด ํ์ต๋ฅ ์ ์กฐ์ ํ๋ ๊ฒ๊ณผ ๊ฑฐ์ ๋์ผํฉ๋๋ค. ๊ฒฐ๋ก ์ ์ผ๋ก, ์ฐ๋ฆฌ๋ ฮฑ๋ฅผ ์ฒ์ ์ ํํ r ๊ฐ์ผ๋ก ์ค์ ํ๊ณ ๋ฐ๋ก ์กฐ์ ํ์ง ์์ต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด r ๊ฐ์ ๋ฐ๊ฟ ๋๋ง๋ค ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ๋ค์ ์กฐ์ ํ ํ์๊ฐ ์ค์ด๋ฆ.
A Generalization of Full Fine-tuning.
No Additional Inference Latency
์ถ๊ฐ์ ์ธ ์ถ๋ก ์ง์ฐ ์์.
- ์ค์ ์ฌ์ฉ ํ๊ฒฝ์ ๋ฐฐํฌํ ๋, W=W0+BA๋ฅผ ๋ฏธ๋ฆฌ ๊ณ์ฐํ๊ณ ์ ์ฅํ์ฌ, ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ์ถ๋ก ์ ์ํํ ์ ์์
- W0์ BA๋ ๋ชจ๋ R^(dรk) ์ฐจ์์ ๊ฐ์ง
- ๋ค๋ฅธ ์์
์ผ๋ก ์ ํํ ๋, BA๋ฅผ ๋นผ๊ณ ์๋ก์ด B0A0๋ฅผ ์ถ๊ฐํ์ฌ ์๋์
W0๋ฅผ ๋น ๋ฅด๊ฒ ๋ณต๊ตฌํ ์ ์์
- ์ด๋ ๋ฉ๋ชจ๋ฆฌ ์ค๋ฒํค๋๊ฐ ๊ฑฐ์ ์๋ ๋น ๋ฅธ ์์
= ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๊ฑฐ์ ์ฌ์ฉํ์ง ์์(?)
- ์ด ๊ณผ์ ์ ์ถ๋ก ์ ๋ฏธ์ธ ์กฐ์ ๋ ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ฌ ์ถ๊ฐ์ ์ธ ์ง์ฐ์ ๋ฐ์์ํค์ง ์๋๋ค๋ ๊ฒ์ ๋ณด์ฅ
- ์์น์ ์ผ๋ก LoRA ์ ์ฉ
- ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ค์ด๊ธฐ ์ํด ์ ๊ฒฝ๋ง์ ๊ฐ์ค์น ํ๋ ฌ์ ์์์ ๋ถ๋ถ ์งํฉ์ LoRA๋ฅผ ์ ์ฉํ ์ ์๋ค.
- LoRA๋ฅผ ์ฌ์ฉํด์ ์ ๊ฒฝ๋ง์ ๊ฐ์ค์น ์ค ์ผ๋ถ๋ง ์
๋ฐ์ดํธํ์ฌ ํ์ตํ ์ ์๋ค.
- Transformer ๊ตฌ์กฐ์ LoRA ์ ์ฉ
-
self-attention ๋ชจ๋์ 4๊ฐ์ ๊ฐ์ค์น ํ๋ ฌ(Wq, Wk, Wv, Wo) โ LoRA์ ์ฉ
-
MLP ๋ชจ๋์ 2๊ฐ์ ๊ฐ์ค์น ํ๋ ฌ
-
์ถ๋ ฅ ์ฐจ์์ด ๋ณดํต ์ดํ
์
ํค๋๋ก ๋๋์ง๋ง, ์ฐ๋ฆฌ๋ Wq (๋๋ Wk, Wv)๋ฅผ dmodel ร dmodel ํฌ๊ธฐ์ ๋จ์ผ ํ๋ ฌ๋ก ๊ฐ์ฃผ
-
๊ฐํธ์ฑ๊ณผ ํ๋ผ๋ฏธํฐ ํจ์จ์ฑ์ ์ํด, ์ฐ๋ฆฌ๋ ํ์ ์์
์ ๋ํด attention layer์์๋ง ๊ฐ์ค์น ์กฐ์ ํ๊ณ MLP ๋ชจ๋์ ๊ณ ์ (๋ฐ๋ผ์ ํ์ ์์
์์ ํ๋ จ๋์ง ์์ต๋๋ค).

- 7.1์ฅ) Transformer์์ ๋ค์ํ ์ ํ์ ์ดํ
์
๊ฐ์ค์น ํ๋ ฌ์ ์กฐ์ ํ๋ ํจ๊ณผ ์ฐ๊ตฌ
- ํฅํ ์ฐ๊ตฌ ์์ฌ์ ) MLP ์ธต, LayerNorm ์ธต, ๊ทธ๋ฆฌ๊ณ ๋ฐ์ด์ด์ค๋ฅผ ์กฐ์ ํ๋ ์ค์ฆ์ ์กฐ์ฌ๋ ํฅํ ์ฐ๊ตฌ๋ก ๋จ๊ฒจ ๋ก๋๋ค.
Practical Benefits and Limitations.
์ค์ ์ ์ธ ์ด์ ๊ณผ ํ๊ณ.
- ์ค์ ์ ์ธ ์ด์
- ๋ฉ๋ชจ๋ฆฌ ๋ฐ ์ ์ฅ ๊ณต๊ฐ ๊ฐ์
- LoRA๋ฅผ ์ฌ์ฉํ๋ฉด VRAM ์ฌ์ฉ๋์ ํฌ๊ฒ ์ค์ผ ์ ์์ต๋๋ค. VRAM: GPU๊ฐ ๋ฐ์ดํฐ์ ์ด๋ฏธ์ง๋ฅผ ์ ์ํ๊ฒ ์ฒ๋ฆฌํ๊ณ ํ๋ฉด์ ํ์ํ๊ธฐ ์ํ ๋ฉ๋ชจ๋ฆฌ
- GPT-3 175B์์๋ ํ๋ จ ์ค VRAM ์ฌ์ฉ๋์ 1.2TB์์ 350GB๋ก ์ค์ผ ์ ์์ต๋๋ค.
- ์ฌ๋ฌ ๋ง์ถคํ ๋ชจ๋ธ์ ์ฝ๊ฒ ๋ง๋ค๊ณ ๊ต์ฒดํ ์ ์์ต๋๋ค.
- GPU ์ฌ์ฉ ๊ฐ์ : ํจ์ฌ ์ ์ ์์ GPU๋ก ํ๋ จํ ์ ์์ผ๋ฉฐ, I/O ๋ณ๋ชฉ ํ์์ ํผํ ์ ์์.
- ์์
์ ํ ๋น์ฉ ๊ฐ์ : LoRA ๊ฐ์ค์น๋ง ๊ต์ฒดํ์ฌ ์์
์ ์ ํํจ์ผ๋ก์จ ์์
์ ํ ๋น์ฉ์ ์ ๊ฐํ ์ ์์.
- ํ๋ จ ์๋ ํฅ์ : Full Fine-tuningํ์ ๋์ ๋น๊ตํ์ฌ ํ๋ จ ์๋๊ฐ 25% ๋นจ๋ผ์ง.
- ํ๊ณ์
- ์๋ก ๋ค๋ฅธ A์ B๋ฅผ ์ฌ์ฉํ๋ ์์
์ ๋์์ ์ฒ๋ฆฌํ๋ ๊ฒ.
= ์๋ก ๋ค๋ฅธ ์์
์ ์
๋ ฅ์ ๋จ์ผ ์์ ํ์์ ์ฒ๋ฆฌํ๋ ๊ฒ.
- ๋ฐ๋ผ์, ์ง์ฐ ์๊ฐ์ด ์ค์ํ์ง ์์ ๊ฒฝ์ฐ, ๊ฐ์ค์น๋ฅผ ๋ณํฉํ์ง ์๊ณ LoRA ๋ชจ๋์ ๋์ ์ผ๋ก ์ ํํ์ฌ ์ฌ์ฉํ ์ ์์.
5. EMPIRICAL EXPERIMENTS
- LoRA์ ์ฑ๋ฅ์ RoBERTa, DeBERTa, GPT-2์์ ํ๊ฐํ ํ, GPT-3 175B๋ก ํ์ฅ
- RoBERTa์ DeBERTa๋ GLUE ๋ฒค์น๋งํฌ๋ก ํ๊ฐํ๊ณ , GPT-2๋ ์ด์ ์ฐ๊ตฌ์ ๋น๊ต
- GPT-3์์๋ ๋๊ท๋ชจ ์คํ์ ์ํด WikiSQL๊ณผ SAMSum ๋ฐ์ดํฐ์
์ฌ์ฉ
- ์คํ task: ์์ฐ์ด ์ดํด(NLU)์ ์์ฑ(NLG)
- ์คํ์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์
์์ธ ๋ด์ฉ - ๋ถ๋ก C ์ฐธ์กฐ, ๋ชจ๋ ์คํ์ NVIDIA Tesla V100 ์ฌ์ฉ
5.1 BASELINES
- ๋ค์ํ ๊ธฐ์ค์ ๊ณผ ๋น๊ตํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ด์ ์ฐ๊ตฌ์์ ์ฌ์ฉ๋ ์ค์ ๋ฐ ์ค์ ๊ฐ ์ฌ์ฌ์ฉ.
- ๊ทธ๋ฌ๋ ์ด๋ ์ผ๋ถ ๊ธฐ์ค์ ์ด ํน์ ์คํ์์๋ง ๋ํ๋ ์ ์์.
Fine-Tuning (FT)
๋ค์ํ ๊ธฐ์ค์ ๊ณผ ๋น๊ตํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ด์ ์ฐ๊ตฌ์์ ์ฌ์ฉ๋ ์ค์ ์ ๋ณต์ , ๊ฐ๋ฅํ ๊ฒฝ์ฐ ๋ณด๊ณ ๋ ์ซ์๋ฅผ ์ฌ์ฌ์ฉ
Bias-only or BitFit
Bias-only ๋๋ BitFit์ ๋ค๋ฅธ ๋ชจ๋ ๊ฒ์ ๊ณ ์ ํ ์ฑ ๋ฐ์ด์ด์ค ๋ฒกํฐ๋ง ํ๋ จํ๋ ๊ธฐ์ค์
Prefix-embedding tuning (PreEmbed)
- Prefix์๋ฒ ๋ฉ ํ๋(PreEmbed)์ ์
๋ ฅ ํ ํฐ ์ฌ์ด์ ํน๋ณํ ํ ํฐ์ ์ฝ์
- ํน๋ณํ ํ ํฐ: ํ์ต ๊ฐ๋ฅํ ๋จ์ด ์๋ฒ ๋ฉ์ ๊ฐ์ง๋ฉฐ ์ผ๋ฐ์ ์ผ๋ก ๋ชจ๋ธ์ ์ดํ์ ํฌํจ๋์ง ์์
- ์ด๋ฅผ ์ด๋์ ๋ฐฐ์นํ๋์ง๊ฐ ์ฑ๋ฅ์ ์ํฅ
- ํ๋กฌํํธ ์์ ๋ถ์ด๋ "ํ๋ฆฌํฝ์ฑ"๊ณผ ๋ค์ ๋ถ์ด๋ "์ธํฝ์ฑ"
- lp (ํ๋ฆฌํฝ์ค ํ ํฐ ์)์ li (์ธํฝ์ค ํ ํฐ ์)๋ก ๋ํ๋
๋๋ค. ํ์ต ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์์ ์๋ |ฮ| = dmodel ร (lp + li)์
๋๋ค.
Prefix-layer tuning (PreLayer)
- ํ๋ฆฌํฝ์ค ๋ ์ด์ด ํ๋(PreLayer)์ ํ๋ฆฌํฝ์ค ์๋ฒ ๋ฉ ํ๋์ ํ์ฅ
- ์ผ๋ถ ํน๋ณํ ํ ํฐ์ ๋ํด ๋จ์ด ์๋ฒ ๋ฉ(๋๋ ์๋ฒ ๋ฉ ์ธต ํ ํ์ฑํ)์ ํ์ตํ๋ ๋์ , ๋ชจ๋ Transformer ์ธต ํ ํ์ฑํ๋ฅผ ํ์ต
- ์ด์ ์ธต์์ ๊ณ์ฐ๋ ํ์ฑํ๋ ๋จ์ํ ํ์ต ๊ฐ๋ฅํ ๊ฒ์ผ๋ก ๋์ฒด
- ํ์ต ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์์ ์๋ |ฮ| = L ร dmodel ร (lp + li)
- L์ Transformer ์ธต์ ์์
๋๋ค.
Adapter tuning
- self-attention ๋ชจ๋(MLP ๋ชจ๋)๊ณผ ์ดํ ์์ฐจ ์ฐ๊ฒฐ ์ฌ์ด์ ์ด๋ํฐ ์ธต์ ์ฝ์
- ์ด๋ํฐ ์ธต์๋ ๋น์ ํ์ฑ์ ๊ฐ์ง ๋ ๊ฐ์ ์์ ์ฐ๊ฒฐ ์ธตโ AdapterH๋ผ๊ณ ๋ถfms
- ๋ ํจ์จ์ ์ธ ๋์์ธ
- MLP ๋ชจ๋ ์ดํ์ LayerNorm ์ดํ์๋ง ์ด๋ํฐ ์ธต์ ์ ์ฉ โ AdapterL๋ผ๊ณ ๋ถ๋ฆ
- ์ด๋ Pfeiffer et al. (2021)์ด ์ ์ํ ๋ ๋ค๋ฅธ ๋์์ธ๊ณผ ๋งค์ฐ ์ ์ฌ โ AdapterP๋ผ๊ณ ๋ถ๋ฆ
- AdapterDrop (Rucklรฉ et al., 2020)์ด๋ผ๋ ๋ ๋ค๋ฅธ ๋ฒ ์ด์ค๋ผ์ธ์ ํฌํจํฉ๋๋ค.
- ๋ ํฐ ํจ์จ์ฑ์ ์ํด ์ผ๋ถ ์ด๋ํฐ ์ธต์ ์ ๊ฑฐํฉ๋๋ค (AdapterD).
- |ฮ| = LหAdpt ร(2รdmodel รr+r+dmodel)+ 2รLหLN รdmodel
- LหAdpt: ์ด๋ํฐ ์ธต์ ์
- LหLN: ํ์ต ๊ฐ๋ฅํ LayerNorm์ ์
LoRA
- LoRA๋ ๊ธฐ์กด ๊ฐ์ค์น ๋งคํธ๋ฆญ์ค์ ๋ณ๋ ฌ๋ก ํ์ต ๊ฐ๋ฅํ ๋ญํฌ ๋ถํด ๋งคํธ๋ฆญ์ค ์์ ์ถ๊ฐ
- ๋จ์ํ๋ฅผ ์ํด Wq์ Wv์๋ง LoRA ์ ์ฉ
- ํ์ต ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์์ ์๋ ๋ญํฌ r๊ณผ ์๋ ๊ฐ์ค์น์ ํํ์ ์ํด ๊ฒฐ์ ๋ฉ๋๋ค: |ฮ| = 2 ร LหLoRA ร dmodel ร r,
- LหLoRA: LoRA๋ฅผ ์ ์ฉํ๋ ๊ฐ์ค์น ๋งคํธ๋ฆญ์ค์ ์
5.2 ROBERTA BASE/LARGE
RoBERTa (Liu et al., 2019)์ BERT (Devlin et al., 2019a)์์ ์ฒ์ ์ ์๋ ์ฌ์ ํ๋ จ ๋ ์ํผ๋ฅผ ์ต์ ํํ์ฌ ๋ ๋ง์ ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ๋ฅผ ์ถ๊ฐํ์ง ์๊ณ ๋ ์ฑ๋ฅ์ ํฅ์์์ผฐ์ต๋๋ค.
์ต๊ทผ ๋ ํฐ ๋ชจ๋ธ๋ค์ด ๋ฑ์ฅํ์ง๋ง, RoBERTa๋ ์ฌ์ ํ ํฌ๊ธฐ์ ๋นํด ์ค๋ฌด์๋ค ์ฌ์ด์์ ์ธ๊ธฐ ์๊ณ ๊ฒฝ์๋ ฅ ์๋ ๋ชจ๋ธ
- HuggingFace ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ ์ฌ์ ํ๋ จ๋ RoBERTa base์ large ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ, GLUE ๋ฒค์น๋งํฌ ์์
์์ ๋ค์ํ ์ ์ ๋ฐฉ๋ฒ์ ์ฑ๋ฅ์ ํ๊ฐ
- ์ด์ ์ฐ๊ตฌ์ ์ค์ ์ ๋ฐ๋ผ ์คํ์ ์ฌํ
- ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด, ์ด๋ํฐ์ ๋น๊ตํ ๋ LoRA๋ฅผ ํ๊ฐ ๋ฐฉ๋ฒ์ ๋ ๊ฐ์ง ์ค์ํ ๋ณ๊ฒฝ
- ๋ชจ๋ ์์
์ ๋ํด ๋์ผํ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์ฌ์ฉ, ์ด๋ํฐ ๊ธฐ์ค์ ๊ณผ ๋ง์ถ๊ธฐ ์ํด ์ํ์ค ๊ธธ์ด๋ฅผ 128๋ก ์ค์
- MRPC, RTE, STS-B ์์
์ ์ํด ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ๋ก ์ด๊ธฐํํ๊ณ , ์ด๋ฏธ ๋ค๋ฅธ ์์
์ ์ ์๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ง ์์
5.3 DEBERTA XXL
- DeBERTa (He et al., 2021)
- BERT์ ์ต์ ๋ณํ ๋ชจ๋ธ๋ก, ํจ์ฌ ๋ ํฐ ๊ท๋ชจ๋ก ํ๋ จ
- GLUE (Wang et al., 2019)์ SuperGLUE (Wang et al., 2020)์ ๊ฐ์ ๋ฒค์น๋งํฌ์์ ๋งค์ฐ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ
- LoRA๊ฐ GLUE์์ ์์ ํ ๋ฏธ์ธ ์กฐ์ ๋ DeBERTa XXL (1.5B)์ ์ฑ๋ฅ๊ณผ ๋น์ทํ์ง ํ๊ฐ
- ๊ฒฐ๊ณผ๋ ํ 2์ ํ๋จ ์น์
์/์ฌ์ฉ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ํ ์์ธํ ๋ด์ฉ์ D.2 ์ ์ ์ฐธ์กฐ
5.4 GPT-2 MEDIUM/LARGE
LoRA๊ฐ NLU(์์ฐ์ด ์ดํด) ์์
์์ ์ ์ฒด ๋ฏธ์ธ ์กฐ์ ์ ๋ํ ๊ฒฝ์๋ ฅ ์๋ ๋์์ด ๋ ์ ์์์ ๋ณด์ฌ์ค.
๊ทธ ํ, LoRA๊ฐ GPT-2 ์ค๊ฐ ๋ฐ ๋ํ ๋ชจ๋ธ๊ณผ ๊ฐ์ NLG(์์ฐ์ด ์์ฑ) ๋ชจ๋ธ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋์ง ํ์ธํ๊ณ ์ ํจ.
- ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด Li & Liang (2021)์ ์คํ ์ค์ ์ ์ต๋ํ ๋น์ทํ๊ฒ ์ ์ง
- ๊ณต๊ฐ ์ ์ฝ์ผ๋ก ์ธํด, ์ด ์น์
์์๋ E2E NLG ์ฑ๋ฆฐ์ง(Table 3) ๊ฒฐ๊ณผ๋ง ์ ์ํฉ๋๋ค.
- WebNLG์ DART ๊ฒฐ๊ณผ๋ F.1 ์ ์์ ํ์ธ / ์ฌ์ฉ๋ ํ์ดํผํ๋ผ๋ฏธํฐ ๋ชฉ๋ก์ D.3 ์
5.5 SCALING UP TO GPT-3 175B
GPT-3๋ก ํ์ฅ (1750์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋ชจ๋ธ)
- ๋์ ํ๋ จ ๋น์ฉ ๋๋ฌธ์ ๋ชจ๋ ํญ๋ชฉ์ ๋ํด ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ์ง ์๊ณ , ์ฃผ์ด์ง ์์
์ ๋ํ ์ ํ์ ์ธ ํ์ค ํธ์ฐจ๋ง ๋ณด๊ณ / ์ฌ์ฉ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ํ ์์ธํ ๋ด์ฉ์ D.4 ์ ์์ ํ์ธ
- ํ 4
- LoRA๋ ์ธ ๊ฐ์ง ๋ฐ์ดํฐ์
๋ชจ๋์์ ๋ฏธ์ธ ์กฐ์ ๊ธฐ์ค์ ๊ณผ ์ผ์นํ๊ฑฐ๋ ์ด๋ฅผ ์ด๊ณผ
- ๋ํ 2
- ๋ชจ๋ ๋ฐฉ๋ฒ์ด ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ ๋ง์ด ๊ฐ์ง์ผ๋ก์จ ํญ์ ์ด๋์ ๋ณด๋ ๊ฒ์ ์๋
- ํ๋ฆฌํฝ์ค ์๋ฒ ๋ฉ ํ๋์์ 256๊ฐ ์ด์์ ํน์ ํ ํฐ์ ์ฌ์ฉํ๊ฑฐ๋ ํ๋ฆฌํฝ์ค ๋ ์ด์ด ํ๋์์ 32๊ฐ ์ด์์ ํน์ ํ ํฐ์ ์ฌ์ฉํ๋ฉด ์ฑ๋ฅ์ด ํฌ๊ฒ ๋จ์ด์ง๋๋ค.
- ์์ธ ์ถ์ธก: ๋ ๋ง์ ํน์ ํ ํฐ์ด ์
๋ ฅ ๋ถํฌ๋ฅผ ์ฌ์ ํ๋ จ ๋ฐ์ดํฐ ๋ถํฌ์์ ๋ ๋ฉ์ด์ง๊ฒ ํ๋ ์์ธ์ด ๋ ์ ์์ต๋๋ค.
- ์ถ๊ฐ ์ฐ๊ตฌ
- ์น์
F.3์์ ๋ฐ์ดํฐ๊ฐ ์ ์ ํ๊ฒฝ์์ ๋ค์ํ ์ ์ ์ ๊ทผ๋ฒ์ ์ฑ๋ฅ์ ์กฐ์ฌํฉ๋๋ค.
self-attention์ ๋ง์ด ์ฌ์ฉํ๋ sequence-to-sequence ๋ชจ๋ธ
Transformer ๊ธฐ๋ฐ ์ธ์ด ๋ชจ๋ธ์ ๋ง์ NLP ์์
์์ ์ต๊ณ ์ฑ๋ฅ
- ์๋ก์ด ํจ๋ฌ๋ค์
- BERT์ GPT-2 ๊ฐ์ ํฐ ๋ชจ๋ธ
- ๋๋์ ํ
์คํธ๋ก ํ๋ จ๋ ํฐ Transformer ์ธ์ด ๋ชจ๋ธ
- ์ผ๋ฐ ๋ฐ์ดํฐ๋ก ๋จผ์ ํ๋ จํ๊ณ , ์์
๋ณ ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ ์กฐ์ ํ๋ฉด ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์
- ๋ ํฐ Transformer๋ฅผ ํ๋ จํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ผ๋ก ๋ ๋์ ์ฑ๋ฅ
โ (๋
ผ๋ฌธ ๋ฐํ ์์ ๊ธฐ์ค) GPT-3๊ฐ ํ์ฌ๊น์ง ํ๋ จ๋ ๊ฐ์ฅ ํฐ ๋จ์ผ Transformer ์ธ์ด ๋ชจ๋ธ๋ก, 1750์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ
Prompt Engineering and Fine-Tuning.
- GPT-3๋ ๋ช ๊ฐ์ง ์์ ๋ก๋ ๋์์ ์กฐ์ ํ ์ ์์ง๋ง, ์
๋ ฅ ํ๋กฌํํธ์ ํฌ๊ฒ ์์กด โ ์ด๋ฅผ ์ํด ํ๋กฌํํธ๋ฅผ ๊ตฌ์ฑํ๊ณ ํ์ํํ๋ ๊ธฐ์ ์ด ํ์ํจ
- ๋ฏธ์ธ ์กฐ์ ์ ์ผ๋ฐ ๋๋ฉ์ธ์์ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ํน์ ์์
์ ๋ง๊ฒ ๋ค์ ํ๋ จ์ํค๋ ๊ฒ โ GPT-3๋ ํฌ๊ธฐ๊ฐ ๋๋ฌด ์ปค์ ์ผ๋ฐ์ ์ธ ๋ฐฉ์์ fine-tuning ์ด๋ ค์. (ํฐ ์ฒดํฌํฌ์ธํธ์ ๋ง์ ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์)
Parameter-Efficient Adaptation.
- ์ด๋ํฐ ๋ ์ด์ด:์ ๊ฒฝ๋ง์ ๊ธฐ์กด ์ธต ์ฌ์ด์ ์ด๋ํฐ ๋ ์ด์ด๋ฅผ ์ฝ์
ํ๋ ๊ฒ์ ์ ์
- ํด๋น ๋
ผ๋ฌธ ๋ฐฉ๋ฒ: ๊ฐ์ค์น ์
๋ฐ์ดํธ์ ์ ๋ญํฌ ์ ์ฝ์ ์ฌ์ฉํ์ฌ ์ง์ฐ ์์ด ์ฃผ ๊ฐ์ค์น์ ๋ณํฉ
- COMPACTER๋ Kronecker ๊ณฑ์ ์ฌ์ฉํ์ฌ ์ด๋ํฐ ์ธต์ ํจ์จ์ ์ผ๋ก ๋ง๋๋ ์ต์ ๋ฐฉ๋ฒ
- LoRA: ์ด๋ํฐ ์ธต๊ณผ ๋ฌ๋ฆฌ ์ถ๋ก ์ ์ง์ฐ ์๊ฐ์ ์ถ๊ฐํ์ง ์dma
โ LoRA๋ฅผ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค๊ณผ ๊ฒฐํฉํ์ฌ ๋ ํจ์จ์ ์ผ๋ก ๋ง๋ค ๊ฐ๋ฅ์ฑ
(์
๋ ฅ ๋จ์ด ์๋ฒ ๋ฉ์ ์ต์ ํํ๋ ๋ฐฉ๋ฒ ๋ฑ)
Low-Rank Structures in Deep Learning.
- low-rank ๊ตฌ์กฐ๋ ๋จธ์ ๋ฌ๋์์ ํํฉ๋๋ค.
- ๋ง์ ๋ฌธ์ ๋ค์ด low-rank ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์, ํนํ ๊ณผ๋งค๊ฐ๋ณ์ํ๋ ์ ๊ฒฝ๋ง์์.
- ์ด์ ์ฐ๊ตฌ๋ค์ ์ ๊ฒฝ๋ง ํ๋ จ ์ low-rank ์ ์ฝ์ ์ถ๊ฐํ์ง๋ง, ๋๊ฒฐ๋ ๋ชจ๋ธ์ ์ ์์ ์
๋ฐ์ดํธ๋ฅผ ์ ์ฉํ๋ ์ฐ๊ตฌ๋ ์์์
- ์ด๋ก ์ ์ผ๋ก, low-rank๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ๊ฐ๋
ํด๋์ค์์๋ ์ ๊ฒฝ๋ง์ด ๋ค๋ฅธ ๊ณ ์ ์ ๋ฐฉ๋ฒ๋ณด๋ค ๋ ์ ์๋, low-rank์ ์์ด ์ ๋์ ํ๋ จ์ ์ ์ฉํ๋ค๋ ์ฐ๊ตฌ๋ ์กด์ฌ
โ low-rank ์ ์ ์
๋ฐ์ดํธ์ ํจ์จ์ฑ ๊ทผ๊ฑฐ
7. UNDERSTANDING THE LOW-RANK UPDATES
LoRA์ ์ค์ง์ ์ธ ์ฅ์ ์ ๋ฐํ์ผ๋ก, ํ์ ์์
์์ ํ์ต๋ ์ ๋ญํฌ ์ ์์ ํน์ฑ์ ๋ ์ค๋ช
- ์ ๋ญํฌ ๊ตฌ์กฐ์ ์ด์ : ์ ๋ญํฌ ๊ตฌ์กฐ๋ ํ๋์จ์ด ์๊ตฌ์ฌํญ์ ๋ฎ์ถ๊ณ ์ฌ๋ฌ ์คํ์ ๋์์ ํ ์ ์๊ฒ ํฉ๋๋ค. ๋ํ, ์
๋ฐ์ดํธ๋ ๊ฐ์ค์น๊ฐ ์ฌ์ ํ๋ จ๋ ๊ฐ์ค์น์ ์ด๋ป๊ฒ ๊ด๋ จ๋๋์ง ์ดํดํ๊ธฐ ์ฝ๊ฒ ๋ง๋ญ๋๋ค.
- GPT-3 175B ์ฐ๊ตฌ: GPT-3 175B์์ ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ๋ฅผ ์ต๋ 10,000๋ฐฐ ์ค์ด๋ฉด์๋ ์ฑ๋ฅ์ ์ ์งํ์ต๋๋ค.
- ์ฐ๋ฆฌ๋ ๋ค์ ์ง๋ฌธ๋ค์ ๋ตํ๊ธฐ ์ํด ์ผ๋ จ์ ๊ฒฝํ์ ์ฐ๊ตฌ๋ฅผ ์ํํฉ๋๋ค:
- ์ฐ๊ตฌ ์ง๋ฌธ 1: ํ๋ผ๋ฏธํฐ ์ ํ์ด ์์ ๋, ์ด๋ค ๊ฐ์ค์น๋ฅผ ์กฐ์ ํด์ผ ์ฑ๋ฅ์ ๊ทน๋ํํ ์ ์์๊น์?
- ์ฐ๊ตฌ ์ง๋ฌธ 2: ์ต์ ์ ์ ์ ํ๋ ฌ โW๋ ์ ๋ง๋ก ๋ฎ์ ๋ญํฌ์ธ๊ฐ์? ๊ทธ๋ ๋ค๋ฉด, ์ ์ ํ ๋ญํฌ๋ ๋ฌด์์ธ๊ฐ์?
- ์ฐ๊ตฌ ์ง๋ฌธ 3: โW์ W์ ๊ด๊ณ๋ ๋ฌด์์ธ๊ฐ์? โW๋ W์ ์ผ๋ง๋ ๊ด๋ จ์ด ์๋์? โW๋ W์ ๋นํด ์ผ๋ง๋ ํฐ๊ฐ์?
- ์ง๋ฌธ (2)์ (3)์ ๋ํ ๋ต๋ณ์ด ํ์ ์์
์ ์ฌ์ ํ๋ จ๋ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ธฐ๋ณธ ์๋ฆฌ๋ฅผ ๋ฐํ์ค ๊ฒ
์ ํ๋ ํ๋ผ๋ฏธํฐ ์์ฐ ๋ด์์, ํ์ ์์
์์ ์ต๊ณ ์ ์ฑ๋ฅ์ ์ป๊ธฐ ์ํด LoRA๋ฅผ ์ด๋ค ๊ฐ์ค์น์ ์ ์ฉํด์ผ ํ ๊น์?
4.2์ ์์ ์ธ๊ธํ๋ฏ์ด, ์ฐ๋ฆฌ๋ ์๊ธฐ ์ฃผ์ ๋ชจ๋์ ๊ฐ์ค์น ํ๋ ฌ๋ง์ ๊ณ ๋ คํฉ๋๋ค.
- ํ๋ผ๋ฏธํฐ ์์ฐ ์ค์ : ์ฐ๋ฆฌ๋ GPT-3 175B์์ 1800๋ง ๊ฐ์ ํ๋ผ๋ฏธํฐ ์์ฐ์ ์ค์ ํ์ผ๋ฉฐ, ์ด๋ ์ฃผ์ ๊ฐ์ค์น ํ ์ข
๋ฅ๋ฅผ ์ ์์ํค๋ฉด
- ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ฮWqโ ๋๋ ฮWkโ์๋ง ํ ๋นํ๋ฉด ์ฑ๋ฅ์ด ๋ฎ์์ง์ง๋ง, Wqโ์ Wvโ๋ฅผ ๋ชจ๋ ์ ์์ํค๋ฉด ์ต๊ณ ์ ์ฑ๋ฅ์ ์ป์ ์ ์์ต๋๋ค.
- ๋ญํฌ 4๋ผ๋ ฮW์์ ์ถฉ๋ถํ ์ ๋ณด๋ฅผ ํฌ์ฐฉํ ์ ์์์ ์์ฌํ๋ฉฐ, ๋ ํฐ ๋ญํฌ๋ก ๋จ์ผ ์ ํ์ ๊ฐ์ค์น๋ฅผ ์ ์์ํค๋ ๊ฒ๋ณด๋ค ์ฌ๋ฌ ๊ฐ์ค์น ํ๋ ฌ์ ์ ์์ํค๋ ๊ฒ์ด ๋ ๋ฐ๋์งํ๋ค๋ ๊ฒ์ ์๋ฏธ
8. CONCLUSION AND FUTURE WORK
(13์ชฝ๊น์ง)
๊ฑฐ๋ํ ์ธ์ด ๋ชจ๋ธ์ ๋ฏธ์ธ ์กฐ์ ํ๋ ๋ฐ๋ ๋ง์ ๋น์ฉ์ด ๋ญ๋๋ค.
LoRA๋ ์ถ๋ก ์ง์ฐ ์์ด ๋ชจ๋ธ ํ์ง์ ์ ์งํ๋ฉด์ ํจ์จ์ ์ผ๋ก ์ ์ํ๋ ๋ฐฉ๋ฒ
๋ธ ํ๋ผ๋ฏธํฐ์ ๋๋ถ๋ถ์ ๊ณต์ ํ์ฌ ์๋น์ค๋ก ๋ฐฐํฌํ ๋ ๋น ๋ฅธ ์์
์ ํ์ ๊ฐ๋ฅํ๊ฒ
LoRA์ ์์น์ Transformer ์ธ ๋ค๋ฅธ ์ ๊ฒฝ๋ง์๋ ์ ์ฉ๋ ์ ์์ต๋๋ค.
- ๋ฏธ๋ ์ฐ๊ตฌ 1: LoRA๋ฅผ ๋ค๋ฅธ ๋ฐฉ๋ฒ๊ณผ ๊ฒฐํฉํ์ฌ ๊ฐ์ ํ ์ ์์
- ๋ฏธ๋ ์ฐ๊ตฌ 2: LoRA๊ฐ ๋ฏธ์ธ ์กฐ์ ๋ณด๋ค ์ฌ์ ํ๋ จ๋ ํน์ง์ด ์ด๋ป๊ฒ ํ์ ์์
์ ์ ์ฉ๋๋์ง ์ฐ๊ตฌ
- ๋ฏธ๋ ์ฐ๊ตฌ 3; ํ์ฌ๋ ์ฃผ๋ก ์ง๊ด์ ์์กดํ์ฌ LoRA๋ฅผ ์ ์ฉํ ๊ฐ์ค์น ํ๋ ฌ์ ์ ํ. ์ด๋ฅผ ์ํ ๋ ์์น์ ์ธ ๋ฐฉ๋ฒ์ด ์์๊น์?
- ๋ฏธ๋ ์ฐ๊ตฌ 4 : ฮW์ ๋ญํฌ ๊ฒฐํ์ ํตํด W๋ ์ฐ๊ตฌํ ์ ์์ต๋๋ค.