LoRA

์†์•„ํ˜„ยท2025๋…„ 7์›” 9์ผ

AI Paper Review

๋ชฉ๋ก ๋ณด๊ธฐ
1/5

LoRA
https://arxiv.org/abs/2106.09685

๐ŸŒŸ ๋‚˜๋ฆ„์˜ ์š”์•ฝ

์‹ค์ œ๋กœ ํ•™์Šตํ•˜๊ณ  ์žˆ๋Š” ์ •๋ณด, ๋‘ ๊ฐ€์ง€: pre-trained weight(W0)์™€ A*B

LoRA: pre-trained๋Š” ๊ณ ์ •์‹œํ‚ค๊ณ , ์—ฌ๊ธฐ์„œ ์ „์ฒด ์ •๋ณด ๋ง๊ณ , ์ข€ ๋” ์ ์€ ์ •๋ณด๋ฅผ A,B์— ์˜ฎ๊ฒจ ๋‹ด์•„์„œ A*B๋งŒ ์—…๋ฐ์ดํŠธ(adaptation)์‹œํ‚ค๊ฒ ๋‹ค!

pre-trained์˜ ์ „์ฒด ์ •๋ณด ๋ง๊ณ , ์ข€ ๋” ์ ์€ ์ •๋ณด๋กœ task์— ์ ์‘์‹œํ‚ค๊ฒ ๋‹ค!


ABSTRACT


  • ๋ฐฐ๊ฒฝ
    • ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๊ณผ์ •:
      ๋จผ์ € ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ์ผ๋ฐ˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•ด ๋ชจ๋ธ์„ ํ›ˆ๋ จ โ†’ ์ดํ›„์— ํŠน์ •ํ•œ ์ž‘์—…์ด๋‚˜ ์ฃผ์ œ์— ๋งž์ถฐ ๋ชจ๋ธ์„ ์กฐ์ •
    • ๋ชจ๋ธ์ด ์ปค์งˆ์ˆ˜๋ก full fine-tuning(๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋‹ค์‹œ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๊ฒƒ)์€ ํ˜„์‹ค์ ์œผ๋กœ ์–ด๋ ค์›€

์ œ์•ˆ

  • Low-Rank Adaptation, LoRA๋ฅผ ์ œ์•ˆ
  • ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์˜ ๋Œ€๋ถ€๋ถ„์„ ๊ณ ์ •(freeze)ํ•˜๊ณ ,
  • Transformer ์•„ํ‚คํ…์ฒ˜์˜ ๊ฐ ๋ ˆ์ด์–ด์— ์ผ๋ถ€ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋žญํฌ ๋ถ„ํ•ด ํ–‰๋ ฌ(rank decomposition matrices)์„ ์‚ฝ์ž…ํž˜์œผ๋กœ์จ, ์ผ๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ์ถ”๊ฐ€
  • ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์˜ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ํฌ๊ฒŒ ์ค„์ž„

ํšจ๊ณผ

  • downstream task๋ฅผ ์œ„ํ•ด ํ•„์š”ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ํฌ๊ฒŒ ์ค„์ž„
  • ํ•™์Šต ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๋” ์ ๊ณ  ํ›ˆ๋ จ ์†๋„๊ฐ€ ๋” ๋น ๋ฅด์ง€๋งŒ,
    ์„ฑ๋Šฅ ๋ฉด์—์„œ๋Š” ๊ธฐ์กด ํŒŒ์ธํŠœ๋‹ ๋ฐฉ๋ฒ•๊ณผ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ๋” ์ข‹์Œ.
  • adapters์ฒ˜๋Ÿผ ์ถ”๋ก  ์†๋„๊ฐ€ ๋А๋ ค์ง€์ง€ ์•Š์•„์„œ ํšจ์œจ์ ์ž„
  • Rank-deficiency์ด ์–ธ์–ด ๋ชจ๋ธ ์ ์‘์— ์–ด๋–ค ์˜ํ–ฅ์„ ๋ฐ”ํƒ•์œผ๋กœ, LoRA๊ฐ€ ์™œ ํšจ์œจ์ ์ธ์ง€ ์„ค๋ช…
  • https://github.com/microsoft/LoRA
    • LoRA์™€ PyTorch ๋ชจ๋ธ์˜ ํ†ตํ•ฉ์„ ์šฉ์ดํ•˜๊ฒŒ ํ•˜๋Š” ํŒจํ‚ค์ง€๋ฅผ ์ถœ์‹œํ•˜๊ณ , RoBERTa, DeBERTa, GPT-2์— ๋Œ€ํ•œ ๊ตฌํ˜„ ๋ฐ ๋ชจ๋ธ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ์ œ๊ณต
๐Ÿ’ก์šฉ์–ด ์ •๋ฆฌ
Adaptation
  • ๊ธฐ์กด ๋ชจ๋ธ์„ ์ƒˆ๋กœ์šด ์ž‘์—…์ด๋‚˜ ๋ฐ์ดํ„ฐ์…‹์— ๋งž๊ฒŒ ์กฐ์ •ํ•˜๋Š” ๊ณผ์ •
  • ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ํŠน์ • ํƒœ์Šคํฌ์— ๋งž๊ฒŒ fine-tuning ํ•˜๋Š” ์ž‘์—…์ด ํฌํ•จ๋จ.
Adapters

๊ธฐ์กด ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ทธ๋Œ€๋กœ ๋‘๊ณ ,
์ƒˆ๋กœ์šด ์ž‘์—…์— ๋งž๋Š” ์ž‘์€ ๋ชจ๋“ˆ๋งŒ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ฐ์ดํ„ฐ์…‹์— ๋งž๊ฒŒ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•. ์ด๋ ‡๊ฒŒ ์ถ”๊ฐ€๋œ ์ž‘์€ ๋ชจ๋“ˆ์ด ๋ชจ๋ธ์„ ๋น ๋ฅด๊ฒŒ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์›€.

Rank

ํ–‰๋ ฌ์—์„œ ์„ ํ˜• ๋…๋ฆฝ์ ์ธ ํ–‰ ๋˜๋Š” ์—ด์˜ ๊ฐœ์ˆ˜. ํ–‰๋ ฌ์˜ ๋žญํฌ๋Š” ๊ทธ ํ–‰๋ ฌ์ด ๋‹ด๊ณ  ์žˆ๋Š” ์ •๋ณด์˜ ์ฐจ์›์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

A = [1  2]
    [2  4]

ํ–‰๋ ฌ A๋Š” ๋‘ ๋ฒˆ์งธ ํ–‰์ด ์ฒซ ๋ฒˆ์งธ ํ–‰์˜ 2๋ฐฐ์ด๋ฏ€๋กœ Rank๋Š” 1.
์ฆ‰, ๋…๋ฆฝ์ ์ธ ์ •๋ณด๋Š” ํ•˜๋‚˜๋งŒ ์žˆ์Œ.

Rank-deficiency

Rank-deficiency(๋žญํฌ ๊ฒฐํ•)์€ ํ–‰๋ ฌ์˜ Rank๊ฐ€ ์ตœ๋Œ€ ๊ฐ€๋Šฅํ•œ ๊ฐ’๋ณด๋‹ค ๋‚ฎ์€ ์ƒํƒœ. ์ฆ‰, ํ–‰๋ ฌ์ด ์ถฉ๋ถ„ํ•œ ๋…๋ฆฝ์ ์ธ ์ •๋ณด๋ฅผ ๋‹ด์ง€ ๋ชปํ•˜๊ฑฐ๋‚˜ ์ค‘๋ณต๋œ ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•˜๋Š” ์ƒํ™ฉ์„ ์˜๋ฏธ.
์ตœ๋Œ€ ๋žญํฌ๋Š” ํ–‰๋ ฌ์˜ column ์ˆ˜์™€ row ์ˆ˜ ์ค‘ ์ž‘์€ ๊ฐ’์— ํ•ด๋‹นํ•จ.
๋”ฐ๋ผ์„œ, Rank๊ฐ€ ์—ด ์ˆ˜๋‚˜ ํ–‰ ์ˆ˜๋ณด๋‹ค ์ ์œผ๋ฉด ๋žญํฌ ๊ฒฐํ• ์ƒํƒœ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

B = [1  2  3]
    [2  4  6]
    [3  6  9]

ํ–‰๋ ฌ B์˜ ์ตœ๋Œ€ ๋žญํฌ๋Š” 3์ด์–ด์•ผ ํ•˜์ง€๋งŒ,
์„ธ ๊ฐœ์˜ ํ–‰์ด ๋ชจ๋‘ ์„ ํ˜•์ ์œผ๋กœ ์ข…์†์ ์ด๋ฏ€๋กœ, ๋žญํฌ๋Š” 1.
๋”ฐ๋ผ์„œ, Rank-deficiency ์ƒํƒœ์ž…๋‹ˆ๋‹ค.


1. INTRODUCTION


๋ฐฐ๊ฒฝ

  • ๊ธฐ์กด์˜ โ€˜์ž์—ฐ์–ด ์ฒ˜๋ฆฌโ€™์—์„œ์˜ ํŠน์ • task ํ•™์Šต ๋ฐฉ๋ฒ•
    • ๋ณดํ†ต pre-trained ๋ชจ๋ธ์˜ ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์กฐ์ •ํ•˜๋Š” fine-tuning
    • ๋ฌธ์ œ์ :
      • ์ƒˆ๋กœ์šด ๋ชจ๋ธ๋„ ์›๋ž˜ ๋ชจ๋ธ๊ณผ ๊ฐ™์€ ์ˆ˜์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง.
      • ํŠนํžˆ, ๋ชจ๋ธ์ด ์ปค์งˆ์ˆ˜๋ก ํฐ ๋ฌธ์ œ (e.g. GPT-3)
  • ๊ธฐ์กด ์—ฐ๊ตฌ์™€ ๋ฌธ์ œ์ 
    • ๊ธฐ์กด์˜ ํ•œ๊ณ„, ์ฆ‰ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ๋งŽ์•„์ง€๋Š” ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•˜๊ณ ์ž ํ–ˆ๋˜ ์—ฐ๊ตฌ๋“ค
      • ์ผ๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ์กฐ์ •ํ•˜๊ฑฐ๋‚˜ ์™ธ๋ถ€ ๋ชจ๋“ˆ์„ ์ถ”๊ฐ€ํ•˜์—ฌ ์†Œ์ˆ˜์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ์ถ”๊ฐ€๋กœ ์ €์žฅ
    • ํ•œ๊ณ„
      • ๋ชจ๋ธ์˜ ๊นŠ์ด๋ฅผ ๋Š˜๋ ค ์ถ”๋ก  ์†๋„๊ฐ€ ๋А๋ ค์ง€๊ฑฐ๋‚˜,
      • ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์‹œํ€€์Šค ๊ธธ์ด๊ฐ€ ์ค„์–ด๋“ฆ = ๋ชจ๋ธ์ด ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ์˜ ๊ธธ์ด๊ฐ€ ์ค„์–ด๋“ฆ.
      • ํšจ์œจ์„ฑ๊ณผ ๋ชจ๋ธ ํ’ˆ์งˆ ์‚ฌ์ด์˜ trade-off

LoRA์˜ ์ œ์•ˆ ๋ฐ ์˜๊ฐ

  • ๊ธฐ์กด ์—ฐ๊ตฌ "๊ณผ๋งค๊ฐœ๋ณ€์ˆ˜ํ™” ๋ชจ๋ธ(over-parameterized model)์ด ์‚ฌ์‹ค ๋‚ฎ์€ ์ฐจ์›(low intrinsic dimension)์— ์กด์žฌํ•œ๋‹ค"์—์„œ ์˜๊ฐ
    • over-parameterized model: ์–ธ์–ด๋ชจ๋ธ์ด ์ปค์ง€๋ฉด์„œ, ์ปค์ง„๋งŒํผ ๋ชธ๊ฐ’์„ ํ•˜๋Š”์ง€.
      e.g) GPT-3 โ‡’ 175B๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์ด ๋‹ค ์ œ ์—ญํ• ์„ ํ•˜๊ณ  ์žˆ๋Š”์ง€

โ‡’ ์—„์ฒญ๋‚˜๊ฒŒ ๋งŽ์€ ์ˆ˜์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์ด ์ „๋ถ€ ํ•„์š”ํ•œ ๊ฒƒ์ธ๊ฐ€?
์‹ค์ œ๋กœ๋Š” ๋‚ฎ์€ ๋‚ด์žฌ ์ฐจ์›์— ์žˆ์ง€ ์•Š์„๊นŒ?
๋ผ๋Š” ๊ฐ€์ •์„ ๋ฐ”ํƒ•์œผ๋กœ ํ•จ

intrinsic dimension
= ๋‚ด๋ถ€์— ์นจํˆฌํ•ด ์žˆ๋Š” ์ •๋ณด = ์ง„์งœ ํ•„์š”ํ•œ ์ผ๋ถ€์˜ ์ •๋ณด
โ‡’ ์ด๋ฅผ ์ฐพ์•„์„œ ์š”๊ฒƒ๋งŒ ํ•™์Šต์‹œํ‚ค์ž!
(๋„ˆ๋ฌด ํฐ ๋ชจ๋ธ โ†’ ํšจ์œจ์ ์ธ ํ•™์Šต์„ ์œ„ํ•ด)

โ‡’ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜ ๋ณ€ํ™”๋„ low-rank๋ฅผ ๊ฐ€์ง„๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์—ฌ, LoRA ๋ฐฉ๋ฒ•์„ ์ œ์•ˆ

low-rank
- rank : ํ–‰๋ ฌ์—์„œ ํ•ต์‹ฌ์ ์ธ ์ •๋ณด๊ฐ€ ๋‹ด๊ฒจ ์žˆ๋Š” ๊ฒƒ
- low-rank : ํ•ต์‹ฌ ์ •๋ณด ์ค‘์— ์ ์€, ์ •๋ง ํ•ต์‹ฌ์ธ ์ •๋ณด
e.g) GPT-3 175B - ์ „์ฒด ๋žญํฌ๊ฐ€ ๋งค์šฐ ๋†’์•„๋„ ๋งค์šฐ ๋‚ฎ์€ ๋žญํฌ(1 ๋˜๋Š” 2)๋กœ๋„ ์ถฉ๋ถ„ํžˆ ์ž‘๋™ํ•˜๋ฏ€๋กœ, LoRA๋Š” ์ €์žฅ ๋ฐ ๊ณ„์‚ฐ ์ธก๋ฉด์—์„œ ๋งค์šฐ ํšจ์œจ์ 

LoRA์˜ ํšจ์œจ์„ฑ ๋ฐ ์žฅ์ 

[Figure 1] reparametrization ๊ตฌ์กฐ. ์˜ค์ง A์™€ B๋งŒ ํ›ˆ๋ จ
  • Pretrained Weights (ํŒŒ๋ž€์ƒ‰ ๋ธ”๋ก) : ์ด๋ฏธ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜ W๋ฅผ ๋‚˜ํƒ€๋ƒ„. ์ด ๊ฐ€์ค‘์น˜๋“ค์€ ๊ณ ์ •๋˜์–ด ์žˆ์œผ๋ฉฐ, ๋ฐ”๊พธ์ง€ ์•Š์Œ.
  • x: ์ž…๋ ฅ ๋ฐ์ดํ„ฐ ๋ฒกํ„ฐ๋กœ, ๋ชจ๋ธ์— ์ž…๋ ฅ๋˜๋Š” ์ •๋ณด (d์ฐจ์›)
  • h: ์ถœ๋ ฅ ๋ฐ์ดํ„ฐ ๋ฒกํ„ฐ๋กœ, ๋ชจ๋ธ์ด ์ƒ์„ฑํ•˜๋Š” ๊ฒฐ๊ณผ
  • A์™€ B ํ–‰๋ ฌ: ์ด ๋‘ ์˜ค๋ Œ์ง€์ƒ‰ ์‚ผ๊ฐํ˜•์€ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ์ €๋žญํฌ ํ–‰๋ ฌ
    โ‡’ LoRA๋Š” ์ด ๋‘ ํ–‰๋ ฌ์„ ์ตœ์ ํ™”ํ•˜์—ฌ ๋ชจ๋ธ์ด ์ƒˆ๋กœ์šด task์— ์ ์‘ํ•˜๋„๋ก ๋„์›€
    • A : ํ‰๊ท ์ด 0์ด๊ณ  ๋ถ„์‚ฐ์ด ฯƒ^2์ธ ์ •๊ทœ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š” ํ•™์Šต ๊ฐ€๋Šฅํ•œ ์ €๋žญํฌ ํ–‰๋ ฌ. (d * r)
    • B : ์ดˆ๊ธฐ ๊ฐ’์ด 0์ธ ์ €๋žญํฌ ํ–‰๋ ฌ. (r * d)
      - r : r๋Š” A์™€ B ํ–‰๋ ฌ์˜ ์ฐจ์› ์ˆ˜ (hidden layer์˜ ๋…ธ๋“œ ๊ฐœ์ˆ˜), low-rank

1. pre-trained ๋ชจ๋ธ์„ ๊ณ ์ •ํ•œ ์ฑ„๋กœ, ํŠน์ • task๋ฅผ ์œ„ํ•œ ์ž‘์€ LoRA ๋ชจ๋“ˆ๋งŒ ๋ฐ”๊พธ๋ฉด ๋จ ([๊ทธ๋ฆผ 1]์˜ A์™€ B ํ–‰๋ ฌ๋งŒ ๊ต์ฒดํ•˜๋ฉด ๋จ)

โ†’ ํšจ์œจ์ ์ธ ์ž‘์—… ์ „ํ™˜, ์ €์žฅ ๊ณต๊ฐ„ ์ ˆ์•ฝ


2. ๋Œ€๋ถ€๋ถ„์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ณ ์ •ํ•˜๊ณ , ์ž‘์€ ์ €๋žญํฌ ํ–‰๋ ฌ๋งŒ ์ตœ์ ํ™”

โ†’ ํšจ์œจ์ ์ธ ํ•™์Šต, ํ•„์š”ํ•œ ํ•˜๋“œ์›จ์–ด ์ž์› ๊ฐ์†Œ
โ†’ ํ•˜๋“œ์›จ์–ด ์ง„์ž… ์žฅ๋ฒฝ์„ ์ตœ๋Œ€ 3๋ฐฐ ๋‚ฎ์ถค


3. ๋‹จ์ˆœํ•œ ์„ ํ˜• ์„ค๊ณ„๋กœ, ๋ฐฐํฌ ์‹œ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํ–‰๋ ฌ์„ ๊ณ ์ •๋œ ๊ฐ€์ค‘์น˜์™€ ๊ฒฐํ•ฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•จ

โ†’ fine-tuning์— ๋น„ํ•ด inference(์ถ”๊ฐ€ ํ•™์Šต)์ด ์—†๋„๋ก ํ•จ


4. ๋‹ค๋ฅธ ๊ธฐ์กด ๋ฐฉ๋ฒ•(e.g. prefix-tuning )๊ณผ ํ•จ๊ป˜ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Œ

โ†’ ์˜ˆ์‹œ๋Š” ๋…ผ๋ฌธ ๋ถ€๋กE์— ์ œ๊ณต

Terminologies and Conventions (์šฉ์–ด ๋ฐ ๊ทœ์น™)

์ด ๋…ผ๋ฌธ์—์„œ๋Š” Transformer ์•„ํ‚คํ…์ฒ˜์™€ ๊ด€๋ จ๋œ ๊ธฐ์กด ์šฉ์–ด๋“ค์„ ์‚ฌ์šฉ

  • dmodel: ๋ชจ๋ธ์˜ ์ž…๋ ฅ ๋ฐ ์ถœ๋ ฅ ์ฐจ์›
  • Wq, Wk, Wv, Wo:
    self-attention ๋ชจ๋“ˆ์—์„œ์˜ query/key/value/output projection ํ–‰๋ ฌ
  • W ๋˜๋Š” W0 : original ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ (GPT-3์—์„œ์˜ 175B ํŒŒ๋ผ๋ฏธํ„ฐ ์ „์ฒด)
  • โˆ†W๋Š” ์ ์‘ ์ค‘ ๋ˆ„์ ๋œ ๊ทธ๋ž˜๋””์–ธํŠธ ์—…๋ฐ์ดํŠธ
  • r: LoRA ๋ชจ๋“ˆ์˜ ๋žญํฌ (low-rank)
  • Adam ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์‚ฌ์šฉ
  • Transformer MLP feedforward ์ฐจ์›์„ d_f fn = 4 ร— dmodel๋กœ ์‚ฌ์šฉ.


2. PROBLEM STATEMENT


์ฃผ์š” ์‚ฌ๋ก€๋กœ์„œ โ€œ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ฌธ์ œโ€๋ฅผ ์„ค๋ช…

  • ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ฌธ์ œ ๊ฐœ์š”

    • ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ: autoregressive language model = P_ฮฆ(y|x)
      • Pฮฆ(y|x)๋Š” ์ž…๋ ฅ x๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ถœ๋ ฅ y๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ
      • ์ด ๋ชจ๋ธ์€ ์—ฌ๋Ÿฌ ์ž‘์—…์„ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ, e.g) GPT
      • ฮฆ๋กœ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”
    • ์ด ๋ชจ๋ธ์„ ํ•˜์œ„ ์ž‘์—…์— ์ ์‘์‹œํ‚ค๋Š” ๊ฒƒ์„ ๊ณ ๋ ค
      • ํ•˜์œ„ ์ž‘์—…: ์š”์•ฝ, ๊ธฐ๊ณ„ ๋…ํ•ด(MRC), ์ž์—ฐ์–ด์—์„œ SQL(NL2SQL)
  • ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹

    • ๊ฐ ํ•˜์œ„ ์ž‘์—…์€ context-target ์Œ์˜ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ‘œํ˜„:
    • Z = {(xi, yi)}i=1,..,N์—์„œ xi์™€ yi๋Š” ๋ชจ๋‘ ํ† ํฐ์˜ ์‹œํ€€์Šค
  • ์ž‘์—… ์˜ˆ์‹œ

    • NL2SQL โ‡’ xi : ์ž์—ฐ์–ด ์ฟผ๋ฆฌ, yi: SQL ๋ช…๋ น์–ด
    • ์š”์•ฝ โ‡’ xi: ๊ธฐ์‚ฌ ๋‚ด์šฉ, yi: ์š”์•ฝ
  • full fine-tuning

    • ๋ชจ๋ธ์„ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๊ฐ€์ค‘์น˜๋กœ ฮฆ0๋กœ ์ดˆ๊ธฐํ™”ํ•˜๊ณ , ์กฐ๊ฑด๋ถ€ ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ชฉํ‘œ๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ€์ค‘์น˜๋ฅผ ฮฆ0 + โˆ†ฮฆ๋กœ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.
  • full fine-tuning์˜ ๋ฌธ์ œ์ 

    • ๊ฐ ํ•˜์œ„ ์ž‘์—…๋งˆ๋‹ค โˆฃฮฆ0|์™€ ๋™์ผํ•œ ์ฐจ์›์˜ ๋‹ค๋ฅธ ํŒŒ๋ผ๋ฏธํ„ฐ ์ง‘ํ•ฉ ฮ”ฮฆ๋ฅผ ํ•™์Šตํ•ด์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ.
    • ๋”ฐ๋ผ์„œ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์ด ๋งค์šฐ ํฐ ๊ฒฝ์šฐ, ๋ฏธ์„ธ ์กฐ์ •๋œ ๋ชจ๋ธ์˜ ์—ฌ๋Ÿฌ ๋…๋ฆฝ์ ์ธ ์ธ์Šคํ„ด์Šค๋ฅผ ์ €์žฅํ•˜๊ณ  ๋ฐฐํฌํ•˜๋Š” ๊ฒƒ์ด ์–ด๋ ต๊ฑฐ๋‚˜ ๋ถˆ๊ฐ€๋Šฅํ•  ์ˆ˜ ์žˆ์Œ.
  • parameter-efficient approach (LoRA?)

    • ํšจ์œจ์ ์ธ ์ ‘๊ทผ๋ฒ•: ๋” ์ž‘์€ ํŒŒ๋ผ๋ฏธํ„ฐ ฮ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ํšจ์œจ์ ์œผ๋กœ.
    • ์ž‘์€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ตœ์ ํ™”: ํฐ ํŒŒ๋ผ๋ฏธํ„ฐ ์ง‘ํ•ฉ ๋Œ€์‹  ์ž‘์€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ง‘ํ•ฉ ฮ˜๋ฅผ ์ตœ์ ํ™”ํ•˜์—ฌ ๋ชจ๋ธ์„ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค.
  • ์ €๋žญํฌ ํ‘œํ˜„ ์‚ฌ์šฉ ์ œ์•ˆ:

    • ๊ณ„์‚ฐ ๋ฐ ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์ ์ธ ๋ฐฉ๋ฒ•์œผ๋กœ โˆ†ฮฆ๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๊ธฐ ์œ„ํ•ด low-rankํ‘œํ˜„์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์„ ์ œ์•ˆ
    • e.g) ์‚ฌ์ „ ํ›ˆ๋ จ๋œ GPT-3 175B์˜ ๊ฒฝ์šฐ, ํŒŒ๋ผ๋ฏธํ„ฐ โˆฃฮ˜โˆฃ์˜ ์ˆ˜๋Š” โˆฃฮฆ0โˆฃ์˜ 0.01%๋งŒํผ ๋งค์šฐ ์ž‘์•„์งˆ ์ˆ˜ ์žˆ์Œ

3. ARENโ€™T EXISTING SOLUTIONS GOOD ENOUGH


๊ธฐ์กด ์†”๋ฃจ์…˜์œผ๋กœ๋Š” ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์Œ

๊ธฐ์กด ์†”๋ฃจ์…˜

  • transfer learning์ด ๋“ฑ์žฅํ•œ ์ดํ›„, ํŒŒ๋ผ๋ฏธํ„ฐ์™€ ๊ณ„์‚ฐ์„ ํšจ์œจ์ ์œผ๋กœ adaptation(์ ์‘)ํ•˜๊ณ ์žํ•˜๋Š” ์—ฐ๊ตฌ ๋งŽ์Œ
  • transfer learning(์ „์ด ํ•™์Šต) : ์ด๋ฏธ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์ƒˆ๋กœ์šด ๊ด€๋ จ ์ž‘์—…์— ์ ์šฉํ•˜์—ฌ ํ•™์Šต ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ธฐ๋ฒ• (๋” ๋งŽ์€ ์—ฐ๊ตฌ ๋‚ด์šฉ์€ 6์žฅ ์ฐธ๊ณ )
  • ์–ธ์–ด ๋ชจ๋ธ๋ง์˜ ๊ฒฝ์šฐ ์ฃผ๋กœ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์ „๋žต
  • ์–ด๋Œ‘ํ„ฐ ๋ ˆ์ด์–ด ์ถ”๊ฐ€: ์–ด๋ށํ„ฐ ๋ ˆ์ด์–ด๋ฅผ ๊ฐ๊ฐ์˜ ๋ ˆ์ด์–ด์— ์‚ฝ์ž…
  • ์ž…๋ ฅ ๋ ˆ์ด์–ด ํ™œ์„ฑํ™” ์ตœ์ ํ™”: ์ž…๋ ฅ ๋ ˆ์ด์–ด์˜ ํ™œ์„ฑํ™”๋ฅผ ์กฐ์ •ํ•˜์—ฌ ๋ชจ๋ธ์„ ์ ์‘์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•.

โ‡’ ๊ทธ๋Ÿฌ๋‚˜ ๋‘ ๊ฐ€์ง€ ์ „๋žต ๋ชจ๋‘, ๋Œ€๊ทœ๋ชจ ์‹œ์Šคํ…œ or ์ง€์—ฐ ์‹œ๊ฐ„์ด ์ค‘์š”ํ•œ ๊ฒฝ์šฐ โ†’ ํ•œ๊ณ„

๊ธฐ์กด ์†”๋ฃจ์…˜์˜ ํ•œ๊ณ„

Adapter Layers Introduce Inference Latency

์–ด๋Œ‘ํ„ฐ ๋ ˆ์ด์–ด๋Š” ์ถ”๋ก  ์ง€์—ฐ์„ ์œ ๋ฐœํ•ฉ๋‹ˆ๋‹ค.

โ‡’ sequentially ํ•œ ๊ณ„์‚ฐ์œผ๋กœ ์ธํ•ด ์ถ”๋ก ์— ์ง€์—ฐ(Inference Latency)์„ ์œ ๋ฐœํ•œ๋‹ค

์ฃผ์š” ์„ค๊ณ„ : ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์„ค๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค:

  1. Houlsby et al. (2019): Transformer ๋ธ”๋ก๋งˆ๋‹ค ๋‘ ๊ฐœ์˜ ์–ด๋Œ‘ํ„ฐ ๋ ˆ์ด์–ด.
  2. Lin et al. (2020): Transformer ๋ธ”๋ก๋งˆ๋‹ค ํ•˜๋‚˜์˜ ์–ด๋Œ‘ํ„ฐ ๋ ˆ์ด์–ด์™€ ์ถ”๊ฐ€ LayerNorm.
  • ํšจ๊ณผ
    • ์ง€์—ฐ ์‹œ๊ฐ„ ๊ฐ์†Œ ๋ฐฉ๋ฒ•: ๋ ˆ์ด์–ด๋ฅผ ์ค„์ด๊ฑฐ๋‚˜ ๋‹ค์ค‘ ์ž‘์—…์„ ์‚ฌ์šฉํ•˜์—ฌ ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์ถ”๊ฐ€ ๊ณ„์‚ฐ ๋ฌธ์ œ: ์–ด๋Œ‘ํ„ฐ ๋ ˆ์ด์–ด์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์ถ”๊ฐ€ ๊ณ„์‚ฐ์„ ์™„์ „ํžˆ ํ”ผํ•  ๋ฐฉ๋ฒ•์€ ์—†์Šต๋‹ˆ๋‹ค.
    • ์–ด๋Œ‘ํ„ฐ ๋ ˆ์ด์–ด๋Š” ์ž‘์€ ๋ณ‘๋ชฉ ์ฐจ์›์„ ๊ฐ€์ง€๊ธฐ ๋•Œ๋ฌธ์— ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ์ ์Šต๋‹ˆ๋‹ค.
    • ๋”ฐ๋ผ์„œ ์–ด๋Œ‘ํ„ฐ ๋ ˆ์ด์–ด๊ฐ€ ์ถ”๊ฐ€ํ•˜๋Š” ๊ณ„์‚ฐ๋Ÿ‰์ด ์ œํ•œ์ ์ด๋ฏ€๋กœ ํฐ ๋ฌธ์ œ๊ฐ€ ์—†๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์ž…๋‹ˆ๋‹ค.
  • ํ•œ๊ณ„
    • ๋Œ€๊ทœ๋ชจ ์‹ ๊ฒฝ๋ง์€ ์ง€์—ฐ ์‹œ๊ฐ„์„ ๋‚ฎ์ถ”๊ธฐ ์œ„ํ•ด ํ•˜๋“œ์›จ์–ด ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ์–ด๋Œ‘ํ„ฐ ๋ ˆ์ด์–ด๋Š” ์ˆœ์ฐจ์ ์œผ๋กœ ์ฒ˜๋ฆฌ๋˜์–ด์•ผ ํ•จ. โ†’ ๋ฐฐ์น˜ ํฌ๊ธฐ๊ฐ€ ์ž‘์€ ์˜จ๋ผ์ธ ํ™˜๊ฒฝ์—์„œ ๋” ๋‘๋“œ๋Ÿฌ์ง.
    • ๋ชจ๋ธ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ๊ฐ€ ์—†๋Š” ์ผ๋ฐ˜์ ์ธ ์‹œ๋‚˜๋ฆฌ์˜ค, (๋‹จ์ผ GPU์—์„œ GPT-2 ์ค‘๊ฐ„ ํฌ๊ธฐ ๋ชจ๋ธ๋กœ ์ถ”๋ก ์„ ์‹คํ–‰ํ•˜๋Š” ๊ฒฝ์šฐ, ๋งค์šฐ ์ž‘์€ ๋ณ‘๋ชฉ ์ฐจ์›์—์„œ๋„ ์–ด๋Œ‘ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ ์ง€์—ฐ ์‹œ๊ฐ„์ด ๋ˆˆ์— ๋„๊ฒŒ ์ฆ๊ฐ€ํ•˜๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค(ํ‘œ 1).

  • ๋ชจ๋ธ ์ƒค๋”ฉ ๋ฌธ์ œ: ๋ชจ๋ธ์„ ์—ฌ๋Ÿฌ ์กฐ๊ฐ์œผ๋กœ ๋‚˜๋ˆŒ ๋•Œ ๋ฌธ์ œ๊ฐ€ ๋” ์‹ฌํ•ด์ง‘๋‹ˆ๋‹ค.
  • ์ถ”๊ฐ€ ๋™๊ธฐ GPU ์ž‘์—…: ๋” ๋งŽ์€ ๋™๊ธฐํ™” ์ž‘์—…์ด ํ•„์š”ํ•ด์ง€๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.
  • ์ค‘๋ณต ์ €์žฅ ํ•„์š”: ์–ด๋Œ‘ํ„ฐ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—ฌ๋Ÿฌ ๋ฒˆ ์ค‘๋ณต ์ €์žฅํ•˜์ง€ ์•Š์œผ๋ฉด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.

Diretly Optimizing the Prompt is Hard

ํ”„๋กฌํ”„ํŠธ(prefix ํŠœ๋‹)๋ฅผ ์ง์ ‘ ์ตœ์ ํ™”ํ•˜๋Š” ๊ฒƒ์€ ์–ด๋ ต๋‹ค

  • Prefix Tuning๊ณผ ๊ฐ™์€ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋“ค๋„ ํ•ด๊ฒฐํ•ด์•ผ ํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์Œ
    - ์ตœ์ ํ™”๊ฐ€ ์–ด๋ ต๊ณ , ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์ด ์ผ์ •ํ•˜์ง€ ์•Š์Œ
    - ์ ์‘์„ ์œ„ํ•ด ํ…์ŠคํŠธ ๊ธธ์ด์˜ ์ผ๋ถ€๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด, ์‹ค์ œ ์ž‘์—…์— ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ํ…์ŠคํŠธ ๊ธธ์ด๊ฐ€ ์ค„์–ด๋“ฆ
    - ์ด๋กœ ์ธํ•ด ํ”„๋กฌํ”„ํŠธ ํŠœ๋‹์˜ ์„ฑ๋Šฅ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์Œ

    Prefix Tuning
    ๋ชจ๋ธ์ด ์ฃผ์–ด์ง„ ์ž‘์—…์— ๋งž๊ฒŒ ์‘๋‹ตํ•˜๋„๋ก, ์ž…๋ ฅ ํ…์ŠคํŠธ ์•ž์— ์งง์€ ํ”„๋ฆฌํ”ฝ์Šค๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ชจ๋ธ์„ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•.
    • ์˜ˆ์‹œ

      • ๊ธฐ๋ณธ ์ž…๋ ฅ: "๋‚ ์”จ๊ฐ€ ์–ด๋•Œ?"
      • ํ”„๋ฆฌํ”ฝ์Šค ์ถ”๊ฐ€ ํ›„ ์ž…๋ ฅ: "์งˆ๋ฌธ: ๋‚ ์”จ๊ฐ€ ์–ด๋•Œ?"
      • ํ”„๋ฆฌํ”ฝ์Šค ํŠœ๋‹: ๋ชจ๋ธ์ด "์งˆ๋ฌธ:"์ด๋ผ๋Š” ํ”„๋ฆฌํ”ฝ์Šค๋ฅผ ๋ณด๊ณ , ์ด ์ž…๋ ฅ์ด ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต์„ ์š”๊ตฌํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
    • ๋ฌธ์ œ์ 

      • ํ”„๋ฆฌํ”ฝ์Šค๋ฅผ ์ถ”๊ฐ€ํ•˜๋ฉด, ์‹ค์ œ๋กœ ์ž‘์—…์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ํ…์ŠคํŠธ ๊ธธ์ด๊ฐ€ ์ค„์–ด
    • ๋ฌธ์ œ์  ์˜ˆ์‹œ
      - ๋ชจ๋ธ์˜ ํ•œ๊ณ„: ๋ชจ๋ธ์ด ํ•œ ๋ฒˆ์— 100์ž์˜ ํ…์ŠคํŠธ๋งŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค.
      - ํ”„๋ฆฌํ”ฝ์Šค ์ถ”๊ฐ€ ์ „: "์ด ๊ณ„์•ฝ์€โ€ฆโ€
      - ํ”„๋ฆฌํ”ฝ์Šค ์ถ”๊ฐ€ ํ›„: "๋‹ค์Œ ํ…์ŠคํŠธ๋ฅผ ๋ฒ•์  ๋ฌธ์„œ ํ˜•์‹์œผ๋กœ ์ž‘์„ฑํ•ด ์ฃผ์„ธ์š”: ์ด ๊ณ„์•ฝ์€...โ€

      โ‡’ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ํ…์ŠคํŠธ ๊ธธ์ด ๊ฐ์†Œ: ํ”„๋ฆฌํ”ฝ์Šค๋ฅผ ์ถ”๊ฐ€ํ•˜๋ฉด, ์‹ค์ œ ์ค‘์š”ํ•œ ์ •๋ณด๊ฐ€ ์ฐจ์ง€ํ•  ์ˆ˜ ์žˆ๋Š” ๊ณต๊ฐ„์ด ์ค„์–ด๋“ฆ


4. OUR METHOD


  • LoRA์˜ ๊ฐ„๋‹จํ•œ ์„ค๊ณ„์™€ ์‹ค์šฉ์ ์ธ ์žฅ์ ์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
  • ์ ์šฉ ๋ฒ”์œ„: LoRA๋Š” ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ๋ชจ๋“  ๋ฐ€์ง‘ ์ธต์— ์ ์šฉํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์šฐ๋ฆฌ๋Š” ์‹คํ—˜์—์„œ Transformer ์–ธ์–ด ๋ชจ๋ธ์˜ ํŠน์ • ๊ฐ€์ค‘์น˜์— ์ง‘์ค‘

4.1 LOW-RANK-PARAMETRIZED UPDATE MATRICES

  • ์˜๊ฐ
    • ์‹ ๊ฒฝ๋ง์€ ํ–‰๋ ฌ ๊ณฑ์…ˆ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋งŽ์€ ๋ฐ€์ง‘ ์ธต์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ธต์˜ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ํ’€๋žญํฌ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
    • ํŠน์ • ์ž‘์—…์— ์ ์‘ํ•  ๋•Œ, ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์–ธ์–ด ๋ชจ๋ธ์ด ๋‚ฎ์€ ๋‚ด์žฌ์  ์ฐจ์›์„ ๊ฐ€์ง€๋ฉฐ, ์ž‘์€ ๊ณต๊ฐ„์œผ๋กœ ํˆฌ์˜๋˜์–ด๋„ ์—ฌ์ „ํžˆ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค.
  • ๊ฐ€์ •
    • ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๋„ ์ ์‘(adaptation) ์ค‘ โ€œintrinsic dimensionโ€๊ฐ€ ๋‚ฎ๋‹ค๊ณ  ๊ฐ€์ •
    • ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ W0๋ฅผ ๋‚ฎ์€ ๋žญํฌ ๋ถ„ํ•ด W0+ฮ”W=W0+BA๋กœ ํ‘œํ˜„ํ•˜์—ฌ ์—…๋ฐ์ดํŠธ
    • W0โˆˆRdร—k
    • B์™€ A๋Š” ์ž‘์€ ๋žญํฌ๋ฅผ ๊ฐ€์ง, W0๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ
    • BโˆˆR^(dร—r), AโˆˆR^(rร—k)
    • ๋žญํฌ r โ‰ช min(d,k)
    • ํ›ˆ๋ จ ์ค‘ W0๋Š” ๊ณ ์ •
    • A์™€ B๋Š” ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ
    • ฮ”W=BA๋Š” ๋™์ผํ•œ ์ž…๋ ฅ๊ณผ ๊ณฑํ•ด์ง€๊ณ , ๊ฒฐ๊ณผ๋Š” ํ•ฉ์‚ฐ๋ฉ๋‹ˆ๋‹ค.
  • h=W_0x์— ๋Œ€ํ•ด ์ˆ˜์ •๋œ ์ˆœ์ „ํŒŒ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒฐ๊ณผ(3)๋ฅผ ์ƒ์„ฑ

์žฌ๋งค๊ฐœ๋ณ€์ˆ˜ํ™” ์„ค๋ช…: ๊ทธ๋ฆผ 1์—์„œ ์šฐ๋ฆฌ๊ฐ€ ์‚ฌ์šฉํ•œ ๋ฐฉ๋ฒ•์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
A๋Š” ๋žœ๋ค ๊ฐ€์šฐ์‹œ์•ˆ ๊ฐ’์œผ๋กœ, B๋Š” 0์œผ๋กœ ์ดˆ๊ธฐํ™”ํ•˜์—ฌ ํ›ˆ๋ จ ์‹œ์ž‘ ์‹œ โˆ†W = BA๊ฐ€ 0์ด ๋˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

๊ทธ ๋‹ค์Œ โˆ†W x๋ฅผ ฮฑ/r๋กœ ์Šค์ผ€์ผ๋งํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ฮฑ๋Š” r ๋‚ด์˜ ์ƒ์ˆ˜์ž…๋‹ˆ๋‹ค. Adam์„ ์‚ฌ์šฉํ•˜์—ฌ ์ตœ์ ํ™”ํ•  ๋•Œ, ์ดˆ๊ธฐํ™”๋ฅผ ์ ์ ˆํžˆ ์Šค์ผ€์ผ๋งํ•˜๋ฉด ฮฑ๋ฅผ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์ด ํ•™์Šต๋ฅ ์„ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฑฐ์˜ ๋™์ผํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ๋ก ์ ์œผ๋กœ, ์šฐ๋ฆฌ๋Š” ฮฑ๋ฅผ ์ฒ˜์Œ ์„ ํƒํ•œ r ๊ฐ’์œผ๋กœ ์„ค์ •ํ•˜๊ณ  ๋”ฐ๋กœ ์กฐ์ •ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด r ๊ฐ’์„ ๋ฐ”๊ฟ€ ๋•Œ๋งˆ๋‹ค ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋‹ค์‹œ ์กฐ์ •ํ•  ํ•„์š”๊ฐ€ ์ค„์–ด๋“ฆ.

A Generalization of Full Fine-tuning.

  • ๋” ์ผ๋ฐ˜์ ์ธ ํ˜•ํƒœ์˜Fine-tuning : ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ค‘ ์ผ๋ถ€๋งŒ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•จ.
  • LoRA๋Š” ํ•œ ๋‹จ๊ณ„ ๋” ๋‚˜์•„๊ฐ€ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ(W0)์— ๋Œ€ํ•œ ์—…๋ฐ์ดํŠธ๊ฐ€ ํ’€๋žญํฌ๊ฐ€ ์•„๋‹ˆ์–ด๋„ ๋จ.
    = ๋ชจ๋ธ์˜ ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•˜์ง€ ์•Š๊ณ , ์ผ๋ถ€ ์ž‘์€ ํ–‰๋ ฌ๋งŒ ์—…๋ฐ์ดํŠธ
  • W0๋ฅผ ์—…๋ฐ์ดํŠธํ•  ๋•Œ, ์ €๋žญํฌ ํ–‰๋ ฌ B์™€A๋กœ ๋‚˜๋ˆ„์–ด ์—…๋ฐ์ดํŠธ
  • ์—ฌ๊ธฐ์„œ ๋žญํฌ r์€ B์™€ A์˜ ์ฐจ์›
  • LoRA์˜ ๋žญํฌ r์„ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๊ฐ€์ค‘์น˜์˜ ๋žญํฌ๋กœ ์„ค์ •ํ•˜๋ฉด
    = W0์˜ ํ’€๋žญํฌ์™€ ๋™์ผํ•˜๊ฒŒ ์„ค์ •ํ•˜๋ฉด,
    โ‡’ Full Fine-tuningํ–ˆ์„ ๋•Œ์™€ ๊ฑฐ์˜ ๋™์ผํ•œ ์„ฑ๋Šฅ
  • ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ (B์™€ A์˜)์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๋ฉด?
    • LoRA ํ•™์Šต : ์›๋ž˜ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ๊ณผ ๋น„์Šทํ•ด์ง.
    • ์–ด๋Œ‘ํ„ฐ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ• : ๋‹จ์ˆœํžˆ MLP์ฒ˜๋Ÿผ ์ž‘๋™
    • ํ”„๋ฆฌํ”ฝ์Šค ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ• : ๊ธด ์ž…๋ ฅ์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์—†๋Š” ๋ชจ๋ธ๋กœ ๋ณ€ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

No Additional Inference Latency

์ถ”๊ฐ€์ ์ธ ์ถ”๋ก  ์ง€์—ฐ ์—†์Œ.

  • ์‹ค์ œ ์‚ฌ์šฉ ํ™˜๊ฒฝ์— ๋ฐฐํฌํ•  ๋•Œ, W=W0+BA๋ฅผ ๋ฏธ๋ฆฌ ๊ณ„์‚ฐํ•˜๊ณ  ์ €์žฅํ•˜์—ฌ, ์ผ๋ฐ˜์ ์ธ ๋ฐฉ๋ฒ•์œผ๋กœ ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Œ
  • W0์™€ BA๋Š” ๋ชจ๋‘ R^(dร—k) ์ฐจ์›์„ ๊ฐ€์ง
  • ๋‹ค๋ฅธ ์ž‘์—…์œผ๋กœ ์ „ํ™˜ํ•  ๋•Œ, BA๋ฅผ ๋นผ๊ณ  ์ƒˆ๋กœ์šด B0A0๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ์›๋ž˜์˜

W0๋ฅผ ๋น ๋ฅด๊ฒŒ ๋ณต๊ตฌํ•  ์ˆ˜ ์žˆ์Œ

  • ์ด๋Š” ๋ฉ”๋ชจ๋ฆฌ ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ ๊ฑฐ์˜ ์—†๋Š” ๋น ๋ฅธ ์ž‘์—… = ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ๊ฑฐ์˜ ์‚ฌ์šฉํ•˜์ง€ ์•Š์Œ(?)
  • ์ด ๊ณผ์ •์€ ์ถ”๋ก  ์‹œ ๋ฏธ์„ธ ์กฐ์ •๋œ ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•˜์—ฌ ์ถ”๊ฐ€์ ์ธ ์ง€์—ฐ์„ ๋ฐœ์ƒ์‹œํ‚ค์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์žฅ

4.2 APPLYING LORA TO TRANSFORMER

  • ์›์น™์ ์œผ๋กœ LoRA ์ ์šฉ
    • ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด ์‹ ๊ฒฝ๋ง์˜ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์˜ ์ž„์˜์˜ ๋ถ€๋ถ„ ์ง‘ํ•ฉ์— LoRA๋ฅผ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.
    • LoRA๋ฅผ ์‚ฌ์šฉํ•ด์„œ ์‹ ๊ฒฝ๋ง์˜ ๊ฐ€์ค‘์น˜ ์ค‘ ์ผ๋ถ€๋งŒ ์—…๋ฐ์ดํŠธํ•˜์—ฌ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค.
  • Transformer ๊ตฌ์กฐ์— LoRA ์ ์šฉ
    • self-attention ๋ชจ๋“ˆ์— 4๊ฐœ์˜ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ(Wq, Wk, Wv, Wo) โ‡’ LoRA์ ์šฉ

    • MLP ๋ชจ๋“ˆ์— 2๊ฐœ์˜ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ

    • ์ถœ๋ ฅ ์ฐจ์›์ด ๋ณดํ†ต ์–ดํ…์…˜ ํ—ค๋“œ๋กœ ๋‚˜๋‰˜์ง€๋งŒ, ์šฐ๋ฆฌ๋Š” Wq (๋˜๋Š” Wk, Wv)๋ฅผ dmodel ร— dmodel ํฌ๊ธฐ์˜ ๋‹จ์ผ ํ–‰๋ ฌ๋กœ ๊ฐ„์ฃผ

    • ๊ฐ„ํŽธ์„ฑ๊ณผ ํŒŒ๋ผ๋ฏธํ„ฐ ํšจ์œจ์„ฑ์„ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ํ•˜์œ„ ์ž‘์—…์— ๋Œ€ํ•ด attention layer์—์„œ๋งŒ ๊ฐ€์ค‘์น˜ ์กฐ์ •ํ•˜๊ณ  MLP ๋ชจ๋“ˆ์€ ๊ณ ์ • (๋”ฐ๋ผ์„œ ํ•˜์œ„ ์ž‘์—…์—์„œ ํ›ˆ๋ จ๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค).

  • 7.1์žฅ) Transformer์—์„œ ๋‹ค์–‘ํ•œ ์œ ํ˜•์˜ ์–ดํ…์…˜ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์„ ์กฐ์ •ํ•˜๋Š” ํšจ๊ณผ ์—ฐ๊ตฌ
  • ํ–ฅํ›„ ์—ฐ๊ตฌ ์‹œ์‚ฌ์ ) MLP ์ธต, LayerNorm ์ธต, ๊ทธ๋ฆฌ๊ณ  ๋ฐ”์ด์–ด์Šค๋ฅผ ์กฐ์ •ํ•˜๋Š” ์‹ค์ฆ์  ์กฐ์‚ฌ๋Š” ํ–ฅํ›„ ์—ฐ๊ตฌ๋กœ ๋‚จ๊ฒจ ๋‘ก๋‹ˆ๋‹ค.

Practical Benefits and Limitations.

์‹ค์ œ์ ์ธ ์ด์ ๊ณผ ํ•œ๊ณ„.

  • ์‹ค์ œ์ ์ธ ์ด์ 
    1. ๋ฉ”๋ชจ๋ฆฌ ๋ฐ ์ €์žฅ ๊ณต๊ฐ„ ๊ฐ์†Œ
      • LoRA๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด VRAM ์‚ฌ์šฉ๋Ÿ‰์„ ํฌ๊ฒŒ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. VRAM: GPU๊ฐ€ ๋ฐ์ดํ„ฐ์™€ ์ด๋ฏธ์ง€๋ฅผ ์‹ ์†ํ•˜๊ฒŒ ์ฒ˜๋ฆฌํ•˜๊ณ  ํ™”๋ฉด์— ํ‘œ์‹œํ•˜๊ธฐ ์œ„ํ•œ ๋ฉ”๋ชจ๋ฆฌ
      • GPT-3 175B์—์„œ๋Š” ํ›ˆ๋ จ ์ค‘ VRAM ์‚ฌ์šฉ๋Ÿ‰์„ 1.2TB์—์„œ 350GB๋กœ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    2. ์—ฌ๋Ÿฌ ๋งž์ถคํ˜• ๋ชจ๋ธ์„ ์‰ฝ๊ฒŒ ๋งŒ๋“ค๊ณ  ๊ต์ฒดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    3. GPU ์‚ฌ์šฉ ๊ฐ์†Œ : ํ›จ์”ฌ ์ ์€ ์ˆ˜์˜ GPU๋กœ ํ›ˆ๋ จํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, I/O ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ํ”ผํ•  ์ˆ˜ ์žˆ์Œ.
    4. ์ž‘์—… ์ „ํ™˜ ๋น„์šฉ ๊ฐ์†Œ : LoRA ๊ฐ€์ค‘์น˜๋งŒ ๊ต์ฒดํ•˜์—ฌ ์ž‘์—…์„ ์ „ํ™˜ํ•จ์œผ๋กœ์จ ์ž‘์—… ์ „ํ™˜ ๋น„์šฉ์„ ์ ˆ๊ฐํ•  ์ˆ˜ ์žˆ์Œ.
    5. ํ›ˆ๋ จ ์†๋„ ํ–ฅ์ƒ : Full Fine-tuningํ–ˆ์„ ๋•Œ์™€ ๋น„๊ตํ•˜์—ฌ ํ›ˆ๋ จ ์†๋„๊ฐ€ 25% ๋นจ๋ผ์ง.
  • ํ•œ๊ณ„์ 
    • ์„œ๋กœ ๋‹ค๋ฅธ A์™€ B๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ž‘์—…์„ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ.
      = ์„œ๋กœ ๋‹ค๋ฅธ ์ž‘์—…์˜ ์ž…๋ ฅ์„ ๋‹จ์ผ ์ˆœ์ „ํŒŒ์—์„œ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ.
    • ๋”ฐ๋ผ์„œ, ์ง€์—ฐ ์‹œ๊ฐ„์ด ์ค‘์š”ํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ, ๊ฐ€์ค‘์น˜๋ฅผ ๋ณ‘ํ•ฉํ•˜์ง€ ์•Š๊ณ  LoRA ๋ชจ๋“ˆ์„ ๋™์ ์œผ๋กœ ์„ ํƒํ•˜์—ฌ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Œ.

5. EMPIRICAL EXPERIMENTS


  • LoRA์˜ ์„ฑ๋Šฅ์„ RoBERTa, DeBERTa, GPT-2์—์„œ ํ‰๊ฐ€ํ•œ ํ›„, GPT-3 175B๋กœ ํ™•์žฅ
    • RoBERTa์™€ DeBERTa๋Š” GLUE ๋ฒค์น˜๋งˆํฌ๋กœ ํ‰๊ฐ€ํ–ˆ๊ณ , GPT-2๋Š” ์ด์ „ ์—ฐ๊ตฌ์™€ ๋น„๊ต
    • GPT-3์—์„œ๋Š” ๋Œ€๊ทœ๋ชจ ์‹คํ—˜์„ ์œ„ํ•ด WikiSQL๊ณผ SAMSum ๋ฐ์ดํ„ฐ์…‹ ์‚ฌ์šฉ
  • ์‹คํ—˜ task: ์ž์—ฐ์–ด ์ดํ•ด(NLU)์™€ ์ƒ์„ฑ(NLG)
  • ์‹คํ—˜์— ์‚ฌ์šฉ๋œ ๋ฐ์ดํ„ฐ์…‹ ์ƒ์„ธ ๋‚ด์šฉ - ๋ถ€๋ก C ์ฐธ์กฐ, ๋ชจ๋“  ์‹คํ—˜์€ NVIDIA Tesla V100 ์‚ฌ์šฉ

5.1 BASELINES

  • ๋‹ค์–‘ํ•œ ๊ธฐ์ค€์„ ๊ณผ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ์ด์ „ ์—ฐ๊ตฌ์—์„œ ์‚ฌ์šฉ๋œ ์„ค์ • ๋ฐ ์„ค์ •๊ฐ’ ์žฌ์‚ฌ์šฉ.
  • ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Š” ์ผ๋ถ€ ๊ธฐ์ค€์„ ์ด ํŠน์ • ์‹คํ—˜์—์„œ๋งŒ ๋‚˜ํƒ€๋‚  ์ˆ˜ ์žˆ์Œ.

Fine-Tuning (FT)

๋‹ค์–‘ํ•œ ๊ธฐ์ค€์„ ๊ณผ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ์ด์ „ ์—ฐ๊ตฌ์—์„œ ์‚ฌ์šฉ๋œ ์„ค์ •์„ ๋ณต์ œ, ๊ฐ€๋Šฅํ•œ ๊ฒฝ์šฐ ๋ณด๊ณ ๋œ ์ˆซ์ž๋ฅผ ์žฌ์‚ฌ์šฉ

Bias-only or BitFit

Bias-only ๋˜๋Š” BitFit์€ ๋‹ค๋ฅธ ๋ชจ๋“  ๊ฒƒ์„ ๊ณ ์ •ํ•œ ์ฑ„ ๋ฐ”์ด์–ด์Šค ๋ฒกํ„ฐ๋งŒ ํ›ˆ๋ จํ•˜๋Š” ๊ธฐ์ค€์„ 

Prefix-embedding tuning (PreEmbed)

  • Prefix์ž„๋ฒ ๋”ฉ ํŠœ๋‹(PreEmbed)์€ ์ž…๋ ฅ ํ† ํฐ ์‚ฌ์ด์— ํŠน๋ณ„ํ•œ ํ† ํฐ์„ ์‚ฝ์ž…
    • ํŠน๋ณ„ํ•œ ํ† ํฐ: ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์„ ๊ฐ€์ง€๋ฉฐ ์ผ๋ฐ˜์ ์œผ๋กœ ๋ชจ๋ธ์˜ ์–ดํœ˜์— ํฌํ•จ๋˜์ง€ ์•Š์Œ
    • ์ด๋ฅผ ์–ด๋””์— ๋ฐฐ์น˜ํ•˜๋Š”์ง€๊ฐ€ ์„ฑ๋Šฅ์— ์˜ํ–ฅ
    • ํ”„๋กฌํ”„ํŠธ ์•ž์— ๋ถ™์ด๋Š” "ํ”„๋ฆฌํ”ฝ์‹ฑ"๊ณผ ๋’ค์— ๋ถ™์ด๋Š” "์ธํ”ฝ์‹ฑ"
    • lp (ํ”„๋ฆฌํ”ฝ์Šค ํ† ํฐ ์ˆ˜)์™€ li (์ธํ”ฝ์Šค ํ† ํฐ ์ˆ˜)๋กœ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ์ˆ˜๋Š” |ฮ˜| = dmodel ร— (lp + li)์ž…๋‹ˆ๋‹ค.

Prefix-layer tuning (PreLayer)

  • ํ”„๋ฆฌํ”ฝ์Šค ๋ ˆ์ด์–ด ํŠœ๋‹(PreLayer)์€ ํ”„๋ฆฌํ”ฝ์Šค ์ž„๋ฒ ๋”ฉ ํŠœ๋‹์˜ ํ™•์žฅ
    • ์ผ๋ถ€ ํŠน๋ณ„ํ•œ ํ† ํฐ์— ๋Œ€ํ•ด ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ(๋˜๋Š” ์ž„๋ฒ ๋”ฉ ์ธต ํ›„ ํ™œ์„ฑํ™”)์„ ํ•™์Šตํ•˜๋Š” ๋Œ€์‹ , ๋ชจ๋“  Transformer ์ธต ํ›„ ํ™œ์„ฑํ™”๋ฅผ ํ•™์Šต
    • ์ด์ „ ์ธต์—์„œ ๊ณ„์‚ฐ๋œ ํ™œ์„ฑํ™”๋Š” ๋‹จ์ˆœํžˆ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๊ฒƒ์œผ๋กœ ๋Œ€์ฒด
  • ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ์ˆ˜๋Š” |ฮ˜| = L ร— dmodel ร— (lp + li)
    • L์€ Transformer ์ธต์˜ ์ˆ˜์ž…๋‹ˆ๋‹ค.

Adapter tuning

  • self-attention ๋ชจ๋“ˆ(MLP ๋ชจ๋“ˆ)๊ณผ ์ดํ›„ ์ž”์ฐจ ์—ฐ๊ฒฐ ์‚ฌ์ด์— ์–ด๋Œ‘ํ„ฐ ์ธต์„ ์‚ฝ์ž…
    • ์–ด๋Œ‘ํ„ฐ ์ธต์—๋Š” ๋น„์„ ํ˜•์„ฑ์„ ๊ฐ€์ง„ ๋‘ ๊ฐœ์˜ ์™„์ „ ์—ฐ๊ฒฐ ์ธตโ‡’ AdapterH๋ผ๊ณ  ๋ถ€fms
  • ๋” ํšจ์œจ์ ์ธ ๋””์ž์ธ
    • MLP ๋ชจ๋“ˆ ์ดํ›„์™€ LayerNorm ์ดํ›„์—๋งŒ ์–ด๋Œ‘ํ„ฐ ์ธต์„ ์ ์šฉ โ‡’ AdapterL๋ผ๊ณ  ๋ถ€๋ฆ„
    • ์ด๋Š” Pfeiffer et al. (2021)์ด ์ œ์•ˆํ•œ ๋˜ ๋‹ค๋ฅธ ๋””์ž์ธ๊ณผ ๋งค์šฐ ์œ ์‚ฌ โ‡’ AdapterP๋ผ๊ณ  ๋ถ€๋ฆ„
  • AdapterDrop (Rucklรฉ et al., 2020)์ด๋ผ๋Š” ๋˜ ๋‹ค๋ฅธ ๋ฒ ์ด์Šค๋ผ์ธ์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.
    • ๋” ํฐ ํšจ์œจ์„ฑ์„ ์œ„ํ•ด ์ผ๋ถ€ ์–ด๋Œ‘ํ„ฐ ์ธต์„ ์ œ๊ฑฐํ•ฉ๋‹ˆ๋‹ค (AdapterD).
    • |ฮ˜| = Lห†Adpt ร—(2ร—dmodel ร—r+r+dmodel)+ 2ร—Lห†LN ร—dmodel
      • Lห†Adpt: ์–ด๋Œ‘ํ„ฐ ์ธต์˜ ์ˆ˜
      • Lห†LN: ํ•™์Šต ๊ฐ€๋Šฅํ•œ LayerNorm์˜ ์ˆ˜

LoRA

  • LoRA๋Š” ๊ธฐ์กด ๊ฐ€์ค‘์น˜ ๋งคํŠธ๋ฆญ์Šค์— ๋ณ‘๋ ฌ๋กœ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋žญํฌ ๋ถ„ํ•ด ๋งคํŠธ๋ฆญ์Šค ์Œ์„ ์ถ”๊ฐ€
  • ๋‹จ์ˆœํ™”๋ฅผ ์œ„ํ•ด Wq์™€ Wv์—๋งŒ LoRA ์ ์šฉ
    • ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ์ˆ˜๋Š” ๋žญํฌ r๊ณผ ์›๋ž˜ ๊ฐ€์ค‘์น˜์˜ ํ˜•ํƒœ์— ์˜ํ•ด ๊ฒฐ์ •๋ฉ๋‹ˆ๋‹ค: |ฮ˜| = 2 ร— Lห†LoRA ร— dmodel ร— r,
    • Lห†LoRA: LoRA๋ฅผ ์ ์šฉํ•˜๋Š” ๊ฐ€์ค‘์น˜ ๋งคํŠธ๋ฆญ์Šค์˜ ์ˆ˜

5.2 ROBERTA BASE/LARGE

RoBERTa (Liu et al., 2019)์€ BERT (Devlin et al., 2019a)์—์„œ ์ฒ˜์Œ ์ œ์•ˆ๋œ ์‚ฌ์ „ ํ›ˆ๋ จ ๋ ˆ์‹œํ”ผ๋ฅผ ์ตœ์ ํ™”ํ•˜์—ฌ ๋” ๋งŽ์€ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ถ”๊ฐ€ํ•˜์ง€ ์•Š๊ณ ๋„ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

์ตœ๊ทผ ๋” ํฐ ๋ชจ๋ธ๋“ค์ด ๋“ฑ์žฅํ–ˆ์ง€๋งŒ, RoBERTa๋Š” ์—ฌ์ „ํžˆ ํฌ๊ธฐ์— ๋น„ํ•ด ์‹ค๋ฌด์ž๋“ค ์‚ฌ์ด์—์„œ ์ธ๊ธฐ ์žˆ๊ณ  ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ๋ชจ๋ธ

  • HuggingFace ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์—์„œ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ RoBERTa base์™€ large ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ, GLUE ๋ฒค์น˜๋งˆํฌ ์ž‘์—…์—์„œ ๋‹ค์–‘ํ•œ ์ ์‘ ๋ฐฉ๋ฒ•์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€
  • ์ด์ „ ์—ฐ๊ตฌ์˜ ์„ค์ •์— ๋”ฐ๋ผ ์‹คํ—˜์„ ์žฌํ˜„
  • ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด, ์–ด๋Œ‘ํ„ฐ์™€ ๋น„๊ตํ•  ๋•Œ LoRA๋ฅผ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์— ๋‘ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ๋ณ€๊ฒฝ
    1. ๋ชจ๋“  ์ž‘์—…์— ๋Œ€ํ•ด ๋™์ผํ•œ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ์‚ฌ์šฉ, ์–ด๋Œ‘ํ„ฐ ๊ธฐ์ค€์„ ๊ณผ ๋งž์ถ”๊ธฐ ์œ„ํ•ด ์‹œํ€€์Šค ๊ธธ์ด๋ฅผ 128๋กœ ์„ค์ •
    2. MRPC, RTE, STS-B ์ž‘์—…์„ ์œ„ํ•ด ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ๋กœ ์ดˆ๊ธฐํ™”ํ•˜๊ณ , ์ด๋ฏธ ๋‹ค๋ฅธ ์ž‘์—…์— ์ ์‘๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์Œ

5.3 DEBERTA XXL

  • DeBERTa (He et al., 2021)
    • BERT์˜ ์ตœ์‹  ๋ณ€ํ˜• ๋ชจ๋ธ๋กœ, ํ›จ์”ฌ ๋” ํฐ ๊ทœ๋ชจ๋กœ ํ›ˆ๋ จ
    • GLUE (Wang et al., 2019)์™€ SuperGLUE (Wang et al., 2020)์™€ ๊ฐ™์€ ๋ฒค์น˜๋งˆํฌ์—์„œ ๋งค์šฐ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ
  • LoRA๊ฐ€ GLUE์—์„œ ์™„์ „ํžˆ ๋ฏธ์„ธ ์กฐ์ •๋œ DeBERTa XXL (1.5B)์˜ ์„ฑ๋Šฅ๊ณผ ๋น„์Šทํ•œ์ง€ ํ‰๊ฐ€
  • ๊ฒฐ๊ณผ๋Š” ํ‘œ 2์˜ ํ•˜๋‹จ ์„น์…˜์—/์‚ฌ์šฉ๋œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•œ ์ž์„ธํ•œ ๋‚ด์šฉ์€ D.2 ์ ˆ์„ ์ฐธ์กฐ

5.4 GPT-2 MEDIUM/LARGE

LoRA๊ฐ€ NLU(์ž์—ฐ์–ด ์ดํ•ด) ์ž‘์—…์—์„œ ์ „์ฒด ๋ฏธ์„ธ ์กฐ์ •์— ๋Œ€ํ•œ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ๋Œ€์•ˆ์ด ๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์คŒ.

๊ทธ ํ›„, LoRA๊ฐ€ GPT-2 ์ค‘๊ฐ„ ๋ฐ ๋Œ€ํ˜• ๋ชจ๋ธ๊ณผ ๊ฐ™์€ NLG(์ž์—ฐ์–ด ์ƒ์„ฑ) ๋ชจ๋ธ์—์„œ๋„ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š”์ง€ ํ™•์ธํ•˜๊ณ ์ž ํ•จ.

  • ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด Li & Liang (2021)์˜ ์‹คํ—˜ ์„ค์ •์„ ์ตœ๋Œ€ํ•œ ๋น„์Šทํ•˜๊ฒŒ ์œ ์ง€
  • ๊ณต๊ฐ„ ์ œ์•ฝ์œผ๋กœ ์ธํ•ด, ์ด ์„น์…˜์—์„œ๋Š” E2E NLG ์ฑŒ๋ฆฐ์ง€(Table 3) ๊ฒฐ๊ณผ๋งŒ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
  • WebNLG์™€ DART ๊ฒฐ๊ณผ๋Š” F.1 ์ ˆ์—์„œ ํ™•์ธ / ์‚ฌ์šฉ๋œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ๋ชฉ๋ก์€ D.3 ์ ˆ

5.5 SCALING UP TO GPT-3 175B

GPT-3๋กœ ํ™•์žฅ (1750์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ)

  • ๋†’์€ ํ›ˆ๋ จ ๋น„์šฉ ๋•Œ๋ฌธ์— ๋ชจ๋“  ํ•ญ๋ชฉ์— ๋Œ€ํ•ด ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•˜์ง€ ์•Š๊ณ , ์ฃผ์–ด์ง„ ์ž‘์—…์— ๋Œ€ํ•œ ์ „ํ˜•์ ์ธ ํ‘œ์ค€ ํŽธ์ฐจ๋งŒ ๋ณด๊ณ  / ์‚ฌ์šฉ๋œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•œ ์ž์„ธํ•œ ๋‚ด์šฉ์€ D.4 ์ ˆ์—์„œ ํ™•์ธ
  • ํ‘œ 4
    • LoRA๋Š” ์„ธ ๊ฐ€์ง€ ๋ฐ์ดํ„ฐ์…‹ ๋ชจ๋‘์—์„œ ๋ฏธ์„ธ ์กฐ์ • ๊ธฐ์ค€์„ ๊ณผ ์ผ์น˜ํ•˜๊ฑฐ๋‚˜ ์ด๋ฅผ ์ดˆ๊ณผ
  • ๋„ํ‘œ 2
    • ๋ชจ๋“  ๋ฐฉ๋ฒ•์ด ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋” ๋งŽ์ด ๊ฐ€์ง์œผ๋กœ์จ ํ•ญ์ƒ ์ด๋“์„ ๋ณด๋Š” ๊ฒƒ์€ ์•„๋‹˜
    • ํ”„๋ฆฌํ”ฝ์Šค ์ž„๋ฒ ๋”ฉ ํŠœ๋‹์—์„œ 256๊ฐœ ์ด์ƒ์˜ ํŠน์ˆ˜ ํ† ํฐ์„ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜ ํ”„๋ฆฌํ”ฝ์Šค ๋ ˆ์ด์–ด ํŠœ๋‹์—์„œ 32๊ฐœ ์ด์ƒ์˜ ํŠน์ˆ˜ ํ† ํฐ์„ ์‚ฌ์šฉํ•˜๋ฉด ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋–จ์–ด์ง‘๋‹ˆ๋‹ค.
    • ์›์ธ ์ถ”์ธก: ๋” ๋งŽ์€ ํŠน์ˆ˜ ํ† ํฐ์ด ์ž…๋ ฅ ๋ถ„ํฌ๋ฅผ ์‚ฌ์ „ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์—์„œ ๋” ๋ฉ€์–ด์ง€๊ฒŒ ํ•˜๋Š” ์›์ธ์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ถ”๊ฐ€ ์—ฐ๊ตฌ
    • ์„น์…˜ F.3์—์„œ ๋ฐ์ดํ„ฐ๊ฐ€ ์ ์€ ํ™˜๊ฒฝ์—์„œ ๋‹ค์–‘ํ•œ ์ ์‘ ์ ‘๊ทผ๋ฒ•์˜ ์„ฑ๋Šฅ์„ ์กฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

6. RELATED WORKS


Transformer Language Models.

self-attention์„ ๋งŽ์ด ์‚ฌ์šฉํ•˜๋Š” sequence-to-sequence ๋ชจ๋ธ

Transformer ๊ธฐ๋ฐ˜ ์–ธ์–ด ๋ชจ๋ธ์€ ๋งŽ์€ NLP ์ž‘์—…์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ

  • ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„
    • BERT์™€ GPT-2 ๊ฐ™์€ ํฐ ๋ชจ๋ธ
    • ๋Œ€๋Ÿ‰์˜ ํ…์ŠคํŠธ๋กœ ํ›ˆ๋ จ๋œ ํฐ Transformer ์–ธ์–ด ๋ชจ๋ธ
    • ์ผ๋ฐ˜ ๋ฐ์ดํ„ฐ๋กœ ๋จผ์ € ํ›ˆ๋ จํ•˜๊ณ , ์ž‘์—…๋ณ„ ๋ฐ์ดํ„ฐ๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋ฉด ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ
    • ๋” ํฐ Transformer๋ฅผ ํ›ˆ๋ จํ•˜๋Š” ๊ฒƒ์ด ์ผ๋ฐ˜์ ์œผ๋กœ ๋” ๋‚˜์€ ์„ฑ๋Šฅ
      โ†’ (๋…ผ๋ฌธ ๋ฐœํ‘œ ์‹œ์  ๊ธฐ์ค€) GPT-3๊ฐ€ ํ˜„์žฌ๊นŒ์ง€ ํ›ˆ๋ จ๋œ ๊ฐ€์žฅ ํฐ ๋‹จ์ผ Transformer ์–ธ์–ด ๋ชจ๋ธ๋กœ, 1750์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ

Prompt Engineering and Fine-Tuning.

  • GPT-3๋Š” ๋ช‡ ๊ฐ€์ง€ ์˜ˆ์ œ๋กœ๋„ ๋™์ž‘์„ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ์— ํฌ๊ฒŒ ์˜์กด โ†’ ์ด๋ฅผ ์œ„ํ•ด ํ”„๋กฌํ”„ํŠธ๋ฅผ ๊ตฌ์„ฑํ•˜๊ณ  ํ˜•์‹ํ™”ํ•˜๋Š” ๊ธฐ์ˆ ์ด ํ•„์š”ํ•จ
  • ๋ฏธ์„ธ ์กฐ์ •์€ ์ผ๋ฐ˜ ๋„๋ฉ”์ธ์—์„œ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์„ ํŠน์ • ์ž‘์—…์— ๋งž๊ฒŒ ๋‹ค์‹œ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๊ฒƒ โ†’ GPT-3๋Š” ํฌ๊ธฐ๊ฐ€ ๋„ˆ๋ฌด ์ปค์„œ ์ผ๋ฐ˜์ ์ธ ๋ฐฉ์‹์˜ fine-tuning ์–ด๋ ค์›€. (ํฐ ์ฒดํฌํฌ์ธํŠธ์™€ ๋งŽ์€ ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ํ•„์š”)

Parameter-Efficient Adaptation.

  • ์–ด๋Œ‘ํ„ฐ ๋ ˆ์ด์–ด:์‹ ๊ฒฝ๋ง์˜ ๊ธฐ์กด ์ธต ์‚ฌ์ด์— ์–ด๋Œ‘ํ„ฐ ๋ ˆ์ด์–ด๋ฅผ ์‚ฝ์ž…ํ•˜๋Š” ๊ฒƒ์„ ์ œ์•ˆ
  • ํ•ด๋‹น ๋…ผ๋ฌธ ๋ฐฉ๋ฒ•: ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ์— ์ €๋žญํฌ ์ œ์•ฝ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ง€์—ฐ ์—†์ด ์ฃผ ๊ฐ€์ค‘์น˜์™€ ๋ณ‘ํ•ฉ
  • COMPACTER๋Š” Kronecker ๊ณฑ์„ ์‚ฌ์šฉํ•˜์—ฌ ์–ด๋Œ‘ํ„ฐ ์ธต์„ ํšจ์œจ์ ์œผ๋กœ ๋งŒ๋“œ๋Š” ์ตœ์‹  ๋ฐฉ๋ฒ•
  • LoRA: ์–ด๋Œ‘ํ„ฐ ์ธต๊ณผ ๋‹ฌ๋ฆฌ ์ถ”๋ก  ์‹œ ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ถ”๊ฐ€ํ•˜์ง€ ์•Šdma

โ‡’ LoRA๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋“ค๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ๋” ํšจ์œจ์ ์œผ๋กœ ๋งŒ๋“ค ๊ฐ€๋Šฅ์„ฑ

(์ž…๋ ฅ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์„ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ• ๋“ฑ)

Low-Rank Structures in Deep Learning.

  • low-rank ๊ตฌ์กฐ๋Š” ๋จธ์‹ ๋Ÿฌ๋‹์—์„œ ํ”ํ•ฉ๋‹ˆ๋‹ค.
  • ๋งŽ์€ ๋ฌธ์ œ๋“ค์ด low-rank ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Œ, ํŠนํžˆ ๊ณผ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”๋œ ์‹ ๊ฒฝ๋ง์—์„œ.
  • ์ด์ „ ์—ฐ๊ตฌ๋“ค์€ ์‹ ๊ฒฝ๋ง ํ›ˆ๋ จ ์‹œ low-rank ์ œ์•ฝ์„ ์ถ”๊ฐ€ํ–ˆ์ง€๋งŒ, ๋™๊ฒฐ๋œ ๋ชจ๋ธ์— ์ €์ˆœ์œ„ ์—…๋ฐ์ดํŠธ๋ฅผ ์ ์šฉํ•˜๋Š” ์—ฐ๊ตฌ๋Š” ์—†์—ˆ์Œ
  • ์ด๋ก ์ ์œผ๋กœ, low-rank๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง„ ๊ฐœ๋… ํด๋ž˜์Šค์—์„œ๋Š” ์‹ ๊ฒฝ๋ง์ด ๋‹ค๋ฅธ ๊ณ ์ „์  ๋ฐฉ๋ฒ•๋ณด๋‹ค ๋” ์ž˜ ์ž‘๋™, low-rank์ ์‘์ด ์ ๋Œ€์  ํ›ˆ๋ จ์— ์œ ์šฉํ•˜๋‹ค๋Š” ์—ฐ๊ตฌ๋„ ์กด์žฌ

โ‡’ low-rank ์ ์‘ ์—…๋ฐ์ดํŠธ์˜ ํšจ์œจ์„ฑ ๊ทผ๊ฑฐ

7. UNDERSTANDING THE LOW-RANK UPDATES


LoRA์˜ ์‹ค์งˆ์ ์ธ ์žฅ์ ์„ ๋ฐ”ํƒ•์œผ๋กœ, ํ•˜์œ„ ์ž‘์—…์—์„œ ํ•™์Šต๋œ ์ €๋žญํฌ ์ ์‘์˜ ํŠน์„ฑ์„ ๋” ์„ค๋ช…

  • ์ €๋žญํฌ ๊ตฌ์กฐ์˜ ์ด์ : ์ €๋žญํฌ ๊ตฌ์กฐ๋Š” ํ•˜๋“œ์›จ์–ด ์š”๊ตฌ์‚ฌํ•ญ์„ ๋‚ฎ์ถ”๊ณ  ์—ฌ๋Ÿฌ ์‹คํ—˜์„ ๋™์‹œ์— ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์—…๋ฐ์ดํŠธ๋œ ๊ฐ€์ค‘์น˜๊ฐ€ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๊ฐ€์ค‘์น˜์™€ ์–ด๋–ป๊ฒŒ ๊ด€๋ จ๋˜๋Š”์ง€ ์ดํ•ดํ•˜๊ธฐ ์‰ฝ๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
  • GPT-3 175B ์—ฐ๊ตฌ: GPT-3 175B์—์„œ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ตœ๋Œ€ 10,000๋ฐฐ ์ค„์ด๋ฉด์„œ๋„ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์šฐ๋ฆฌ๋Š” ๋‹ค์Œ ์งˆ๋ฌธ๋“ค์— ๋‹ตํ•˜๊ธฐ ์œ„ํ•ด ์ผ๋ จ์˜ ๊ฒฝํ—˜์  ์—ฐ๊ตฌ๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค:
    • ์—ฐ๊ตฌ ์งˆ๋ฌธ 1: ํŒŒ๋ผ๋ฏธํ„ฐ ์ œํ•œ์ด ์žˆ์„ ๋•Œ, ์–ด๋–ค ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ •ํ•ด์•ผ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ์„๊นŒ์š”?
    • ์—ฐ๊ตฌ ์งˆ๋ฌธ 2: ์ตœ์ ์˜ ์ ์‘ ํ–‰๋ ฌ โˆ†W๋Š” ์ •๋ง๋กœ ๋‚ฎ์€ ๋žญํฌ์ธ๊ฐ€์š”? ๊ทธ๋ ‡๋‹ค๋ฉด, ์ ์ ˆํ•œ ๋žญํฌ๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”?
    • ์—ฐ๊ตฌ ์งˆ๋ฌธ 3: โˆ†W์™€ W์˜ ๊ด€๊ณ„๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”? โˆ†W๋Š” W์™€ ์–ผ๋งˆ๋‚˜ ๊ด€๋ จ์ด ์žˆ๋‚˜์š”? โˆ†W๋Š” W์— ๋น„ํ•ด ์–ผ๋งˆ๋‚˜ ํฐ๊ฐ€์š”?
  • ์งˆ๋ฌธ (2)์™€ (3)์— ๋Œ€ํ•œ ๋‹ต๋ณ€์ด ํ•˜์œ„ ์ž‘์—…์— ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์–ธ์–ด ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ธฐ๋ณธ ์›๋ฆฌ๋ฅผ ๋ฐํ˜€์ค„ ๊ฒƒ

7.1 WHICH WEIGHT MATRICES IN TRANSFORMER SHOULD WE APPLY LORA TO?

์ œํ•œ๋œ ํŒŒ๋ผ๋ฏธํ„ฐ ์˜ˆ์‚ฐ ๋‚ด์—์„œ, ํ•˜์œ„ ์ž‘์—…์—์„œ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ์–ป๊ธฐ ์œ„ํ•ด LoRA๋ฅผ ์–ด๋–ค ๊ฐ€์ค‘์น˜์— ์ ์šฉํ•ด์•ผ ํ• ๊นŒ์š”?

4.2์ ˆ์—์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด, ์šฐ๋ฆฌ๋Š” ์ž๊ธฐ ์ฃผ์˜ ๋ชจ๋“ˆ์˜ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ๋งŒ์„ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค.

  • ํŒŒ๋ผ๋ฏธํ„ฐ ์˜ˆ์‚ฐ ์„ค์ • : ์šฐ๋ฆฌ๋Š” GPT-3 175B์—์„œ 1800๋งŒ ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์˜ˆ์‚ฐ์„ ์„ค์ •ํ–ˆ์œผ๋ฉฐ, ์ด๋Š” ์ฃผ์˜ ๊ฐ€์ค‘์น˜ ํ•œ ์ข…๋ฅ˜๋ฅผ ์ ์‘์‹œํ‚ค๋ฉด
    • ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ฮ”Wqโ€‹ ๋˜๋Š” ฮ”Wkโ€‹์—๋งŒ ํ• ๋‹นํ•˜๋ฉด ์„ฑ๋Šฅ์ด ๋‚ฎ์•„์ง€์ง€๋งŒ, Wqโ€‹์™€ Wvโ€‹๋ฅผ ๋ชจ๋‘ ์ ์‘์‹œํ‚ค๋ฉด ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋žญํฌ 4๋ผ๋„ ฮ”W์—์„œ ์ถฉ๋ถ„ํ•œ ์ •๋ณด๋ฅผ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•˜๋ฉฐ, ๋” ํฐ ๋žญํฌ๋กœ ๋‹จ์ผ ์œ ํ˜•์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ ์‘์‹œํ‚ค๋Š” ๊ฒƒ๋ณด๋‹ค ์—ฌ๋Ÿฌ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์„ ์ ์‘์‹œํ‚ค๋Š” ๊ฒƒ์ด ๋” ๋ฐ”๋žŒ์งํ•˜๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธ

8. CONCLUSION AND FUTURE WORK


(13์ชฝ๊นŒ์ง€)

๊ฑฐ๋Œ€ํ•œ ์–ธ์–ด ๋ชจ๋ธ์„ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋Š” ๋ฐ๋Š” ๋งŽ์€ ๋น„์šฉ์ด ๋“ญ๋‹ˆ๋‹ค.

LoRA๋Š” ์ถ”๋ก  ์ง€์—ฐ ์—†์ด ๋ชจ๋ธ ํ’ˆ์งˆ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ํšจ์œจ์ ์œผ๋กœ ์ ์‘ํ•˜๋Š” ๋ฐฉ๋ฒ•

๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๋Œ€๋ถ€๋ถ„์„ ๊ณต์œ ํ•˜์—ฌ ์„œ๋น„์Šค๋กœ ๋ฐฐํฌํ•  ๋•Œ ๋น ๋ฅธ ์ž‘์—… ์ „ํ™˜์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ

LoRA์˜ ์›์น™์€ Transformer ์™ธ ๋‹ค๋ฅธ ์‹ ๊ฒฝ๋ง์—๋„ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๋ฏธ๋ž˜ ์—ฐ๊ตฌ 1: LoRA๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Œ
  • ๋ฏธ๋ž˜ ์—ฐ๊ตฌ 2: LoRA๊ฐ€ ๋ฏธ์„ธ ์กฐ์ •๋ณด๋‹ค ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ํŠน์ง•์ด ์–ด๋–ป๊ฒŒ ํ•˜์œ„ ์ž‘์—…์— ์ ์šฉ๋˜๋Š”์ง€ ์—ฐ๊ตฌ
  • ๋ฏธ๋ž˜ ์—ฐ๊ตฌ 3; ํ˜„์žฌ๋Š” ์ฃผ๋กœ ์ง๊ด€์— ์˜์กดํ•˜์—ฌ LoRA๋ฅผ ์ ์šฉํ•  ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์„ ์„ ํƒ. ์ด๋ฅผ ์œ„ํ•œ ๋” ์›์น™์ ์ธ ๋ฐฉ๋ฒ•์ด ์žˆ์„๊นŒ์š”?
  • ๋ฏธ๋ž˜ ์—ฐ๊ตฌ 4 : ฮ”W์˜ ๋žญํฌ ๊ฒฐํ•์„ ํ†ตํ•ด W๋„ ์—ฐ๊ตฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
profile
์„œ๋น„์Šค๊ธฐํš/.AI/๋ฐ์ดํ„ฐ๋ถ„์„

0๊ฐœ์˜ ๋Œ“๊ธ€