[DL/NLP] Improving Language Understanding by Generative Pre-Training

๊ตฌ๋งยท2024๋…„ 8์›” 12์ผ
0

[Paper Review]

๋ชฉ๋ก ๋ณด๊ธฐ
1/8

๐Ÿ“„์ฐธ๊ณ ์ž๋ฃŒ

Abstract

  • ์ž์—ฐ์–ด ์ดํ•ด๋Š” ํ…์ŠคํŠธ ์ˆ˜๋ฐ˜, ์งˆ๋ฌธ ๋‹ต๋ณ€, ์˜๋ฏธ๋ก ์  ์œ ์‚ฌ์„ฑ ํ‰๊ฐ€ ๋ฐ ๋ฌธ์„œ ๋ถ„๋ฅ˜์™€ ๊ฐ™์€ ๊ด‘๋ฒ”์œ„ํ•˜๊ณ  ๋‹ค์–‘ํ•œ ์ž‘์—…์œผ๋กœ ๊ตฌ์„ฑ
  • ๋ผ๋ฒจ๋ง ๋˜์ง€ ์•Š์€ ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ ๋ง๋ญ‰์น˜๋Š” ํ’๋ถ€ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ํŠน์ • ์ž‘์—…์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•œ ๋ผ๋ฒจ๋ง๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•˜์—ฌ ์ฐจ๋ณ„์ ์œผ๋กœ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์ด ์ ์ ˆํ•˜๊ฒŒ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์–ด๋ ค์›€
  • ์ด ๋…ผ๋ฌธ์€ ๋ผ๋ฒจ๋ง ๋˜์ง€ ์•Š์€ ๋‹ค์–‘ํ•œ ํ…์ŠคํŠธ ๋ง๋ญ‰์น˜์— ๋Œ€ํ•œ ์–ธ์–ด ๋ชจ๋ธ์„ generative pre-trainingํ•œ ๋‹ค์Œ ๊ฐ ํŠน์ • ์ž‘์—…์— ๋Œ€ํ•ด ์ฐจ๋ณ„์ ์ธ ๋ฏธ์„ธ ์กฐ์ •์„ ํ†ตํ•ด ์œ„ ์ž‘์—…๋“ค์„ ํšจ๊ณผ์ ์œผ๋กœ ์ˆ˜ํ–‰
  • ์ด์ „ ์ ‘๊ทผ ๋ฐฉ์‹๊ณผ ๋‹ฌ๋ฆฌ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ตœ์†Œํ•œ์œผ๋กœ ๋ณ€๊ฒฝํ•˜๋ฉด์„œ๋„ ํšจ๊ณผ์ ์ธ ์ „์†ก์„ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ๋ฏธ์„ธ ์กฐ์ • ์ค‘์— ์ž‘์—… ์ธ์‹ ์ž…๋ ฅ ๋ณ€ํ™˜์„ ์‚ฌ์šฉ
  • ์ด ๋…ผ๋ฌธ์˜ ๋ณด๋‹ค ์ผ๋ฐ˜์ ์ธ, ์ž‘์—…์— ๊ตฌ์• ๋ฐ›์ง€ ์•Š๋Š” ๋ชจ๋ธ์€ ๊ฐ ์ž‘์—…์— ๋Œ€ํ•ด ํŠน๋ณ„ํžˆ ์ œ์ž‘๋œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ฐจ๋ณ„์ ์œผ๋กœ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚จ

1 Introduction

[ ๊ธฐ์กด ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•๋“ค๊ณผ ์ด ๋ฐฉ๋ฒ•๋“ค์˜ ์ฃผ์š” ๋ฌธ์ œ์  ]

์›์‹œ ํ…์ŠคํŠธ๋กœ๋ถ€ํ„ฐ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์€ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP)์—์„œ ๊ฐ๋…๋œ ํ•™์Šต์— ๋Œ€ํ•œ ์˜์กด์„ฑ์„ ์™„ํ™”ํ•˜๋Š” ๋ฐ ์ค‘์š”

๋Œ€๋ถ€๋ถ„์˜ ๋”ฅ ๋Ÿฌ๋‹ ๋ฐฉ๋ฒ•์€ ์ƒ๋‹นํ•œ ์–‘์˜ ์ˆ˜๋™์œผ๋กœ ๋ ˆ์ด๋ธ”์ด ์ง€์ •๋œ ๋ฐ์ดํ„ฐ๋ฅผ ํ•„์š”๋กœ ํ•˜๋ฉฐ, ์ด๋Š” ์ฃผ์„์ด ๋‹ฌ๋ฆฐ ๋ฆฌ์†Œ์Šค๊ฐ€ ๋ถ€์กฑํ•œ ๋งŽ์€ ๋„๋ฉ”์ธ์—์„œ์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์ œํ•œ

์ด๋Ÿฌํ•œ ์ƒํ™ฉ์—์„œ ๋ ˆ์ด๋ธ”์ด ์—†๋Š” ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์–ธ์–ด ์ •๋ณด๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์€ ๋” ๋งŽ์€ ์ฃผ์„์„ ์ˆ˜์ง‘ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋Œ€์•ˆ์„ ์ œ๊ณต

๋˜ํ•œ unsupervised ๋ฐฉ์‹์œผ๋กœ ์ข‹์€ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ œ๊ณต

๋ ˆ์ด๋ธ”์ด ์—†๋Š” ํ…์ŠคํŠธ๋กœ๋ถ€ํ„ฐ ๋‹จ์–ด ์ˆ˜์ค€ ์ด์ƒ์˜ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์€ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์ด์œ ๋กœ ์–ด๋ ค์›€์ด ์žˆ์Œ

  1. ์ „์ด์— ์œ ์šฉํ•œ ํ…์ŠคํŠธ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ๊ฐ€์žฅ ํšจ๊ณผ์ ์ธ ์ตœ์ ํ™” ๋ชฉํ‘œ๊ฐ€ ๋ฌด์—‡์ธ์ง€ ๋ช…ํ™•ํ•˜์ง€ ์•Š์Œ
  2. ์ด๋Ÿฌํ•œ ํ•™์Šต๋œ ํ‘œํ˜„์„ ๋Œ€์ƒ ์ž‘์—…์— ํšจ๊ณผ์ ์œผ๋กœ ์ „๋‹ฌํ•˜๋Š” ๊ฐ€์žฅ ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ• ๋ถ€์žฌ
  • ๊ธฐ์กด ๊ธฐ์ˆ ์€ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์— ์ž‘์—…๋ณ„ ๋ณ€๊ฒฝ์„ ์ˆ˜ํ–‰ํ•˜๊ฑฐ๋‚˜ ๋ณต์žกํ•œ ํ•™์Šต ์ฒด๊ณ„๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  ๋ณด์กฐ ํ•™์Šต ๋ชฉํ‘œ๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ์„ ํฌํ•จ.

์ด ๋…ผ๋ฌธ์—์„œ๋Š” unsupervised pre-training + supervised fine tuning์„ ๊ฒฐํ•ฉํ•œ semi-supervised language understanding ์ž‘์—… ์ ‘๊ทผ ๋ฐฉ๋ฒ•์„ ํƒ๊ตฌ

์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ๋Š” ๋‹ค์–‘ํ•œ ์ž‘์—…์— ์ ์€ ์ ์‘์œผ๋กœ ์ „๋‹ฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ณดํŽธ์ ์ธ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ

์šฐ๋ฆฌ๋Š” ๋ ˆ์ด๋ธ”์ด ์—†๋Š” ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ ์ฝ”ํผ์Šค์™€ ์ˆ˜๋™์œผ๋กœ ์ฃผ์„์ด ๋‹ฌ๋ฆฐ ํ›ˆ๋ จ ์˜ˆ์ œ๊ฐ€ ํฌํ•จ๋œ ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ ์„ธํŠธ(๋Œ€์ƒ ์ž‘์—…)์— ์•ก์„ธ์Šคํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •

  • ์ด๋Ÿฌํ•œ ๋Œ€์ƒ ์ž‘์—…์ด ๋ ˆ์ด๋ธ”์ด ์—†๋Š” ์ฝ”ํผ์Šค์™€ ๋™์ผํ•œ ๋„๋ฉ”์ธ์— ์žˆ์„ ํ•„์š”๋Š” ์—†์Œ

๋‘ ๋‹จ๊ณ„ ํ›ˆ๋ จ ์ ˆ์ฐจ

  • ๋จผ์ €, ๋ ˆ์ด๋ธ”์ด ์—†๋Š” ๋ฐ์ดํ„ฐ์—์„œ ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ชฉํ‘œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์‹ ๊ฒฝ๋ง ๋ชจ๋ธ์˜ ์ดˆ๊ธฐ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ํ•™์Šต
  • ๊ทธ ํ›„, ์šฐ๋ฆฌ๋Š” ํ•ด๋‹น supervised ๋ชฉํ‘œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๋Œ€์ƒ ์ž‘์—…์— ์ ์šฉ

๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋กœ๋Š” Transformer๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ด๋Š” ๊ธฐ๊ณ„ ๋ฒˆ์—ญ, ๋ฌธ์„œ ์ƒ์„ฑ, ๊ตฌ๋ฌธ ํŒŒ์‹ฑ ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ

Semi-supervised learning for NLP

์ค€๊ฐ๋… ํ•™์Šต์€ NLP์— ์žˆ์–ด์„œ ์ด ๋…ผ๋ฌธ์ด ์†ํ•˜๋Š” ๋ฒ”์ฃผ

์ด ํŒจ๋Ÿฌ๋‹ค์ž„์€ ์‹œํ€€์Šค ๋ผ๋ฒจ๋ง์ด๋‚˜ text classification ๊ฐ™์€ ์ž‘์—…์— ์ ์šฉ๋˜์–ด ์ƒ๋‹นํ•œ ๊ด€์‹ฌ์„ ๋ฐ›์Œ

์ดˆ๊ธฐ ์ ‘๊ทผ ๋ฐฉ์‹

  • ๋ ˆ์ด๋ธ”์ด ์—†๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹จ์–ด ์ˆ˜์ค€ ๋˜๋Š” ๊ตฌ๋ฌธ ์ˆ˜์ค€์˜ ํ†ต๊ณ„๋ฅผ ๊ณ„์‚ฐํ•œ ๋‹ค์Œ, ์ด๋ฅผ supervised model์—์„œ ํŠน์ง•์œผ๋กœ ์‚ฌ์šฉ
  • ์ตœ๊ทผ ๋ช‡ ๋…„ ๋™์•ˆ ์—ฐ๊ตฌ์ž๋“ค์€ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š” ์ด์ ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Œ. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์€ ์ฃผ๋กœ ๋‹จ์–ด ์ˆ˜์ค€์˜ ์ •๋ณด๋ฅผ ์ „๋‹ฌํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘๊ณ  ์žˆ์œผ๋ฉฐ, ์šฐ๋ฆฌ๋Š” ๋” ๋†’์€ ์ˆ˜์ค€์˜ ์˜๋ฏธ๋ก ์„ ํฌ์ฐฉํ•˜๋ ค๊ณ  ํ•จ

์ตœ๊ทผ์˜ ์ ‘๊ทผ ๋ฐฉ์‹

  • ๋ ˆ์ด๋ธ”์ด ์—†๋Š” ๋ฐ์ดํ„ฐ์—์„œ ๋‹จ์–ด ์ˆ˜์ค€ ์ด์ƒ์˜ ์˜๋ฏธ๋ก ์„ ํ•™์Šตํ•˜๊ณ  ํ™œ์šฉํ•˜๋Š” ์‚ฌ๋ก€๋ฅผ ์ฐพ์•„๋ณด๋ฉด ๊ตฌ๋ฌธ ์ˆ˜์ค€ ๋˜๋Š” ๋ฌธ์žฅ ์ˆ˜์ค€ ์ž„๋ฒ ๋”ฉ์€ ๋ ˆ์ด๋ธ”์ด ์—†๋Š” ์ฝ”ํผ์Šค๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ›ˆ๋ จ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ๋Œ€์ƒ ์ž‘์—…์— ์ ํ•ฉํ•œ ๋ฒกํ„ฐ ํ‘œํ˜„์œผ๋กœ ํ…์ŠคํŠธ๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋จ์„ ํ™•์ธ.

Unsupervised pre-training

์šฐ๋ฆฌ์˜ ์—ฐ๊ตฌ์™€ ๊ฐ€์žฅ ๋ฐ€์ ‘ํ•œ ์—ฐ๊ตฌ ๋ผ์ธ์€ ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ชฉํ‘œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์‹ ๊ฒฝ๋ง์„ ์‚ฌ์ „ ํ›ˆ๋ จํ•œ ๋‹ค์Œ ๊ฐ๋…๋œ ์ž‘์—…์—์„œ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ํ…์ŠคํŠธ ๋ถ„๋ฅ˜๋ฅผ ๊ฐœ์„ ํ–ˆ์Œ

๊ทธ๋Ÿฌ๋‚˜ ์‚ฌ์ „ ํ›ˆ๋ จ ๋‹จ๊ณ„๋Š” ์ผ๋ถ€ ์–ธ์–ด ์ •๋ณด๋ฅผ ํฌ์ฐฉํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜์ง€๋งŒ, ์ด ์„ ํ–‰ ์—ฐ๊ตฌ๋Š” LSTM ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์˜€๋Š”๋ฐ ์ด๋Ÿฐ ์ ‘๊ทผ ๋ฐฉ์‹์€ ์˜ˆ์ธก ๋Šฅ๋ ฅ์„ ์งง์€ ๋ฒ”์œ„๋กœ ์ œํ•œํ•จ

๋ฐ˜๋ฉด์—, ์šฐ๋ฆฌ์˜ Transformer ์„ ํƒ์€ ์‹คํ—˜์—์„œ ๋ณด์—ฌ์ค€ ๊ฒƒ์ฒ˜๋Ÿผ ๋” ๊ธด ๋ฒ”์œ„์˜ ์–ธ์–ด ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉ.

๋˜ํ•œ, ์ž์—ฐ ์–ธ์–ด ์ถ”๋ก , ๋‹จ์–ด ์žฌ๋ฐฐ์น˜ ๊ฐ์ง€ ๋ฐ ์ด์•ผ๊ธฐ ์™„์„ฑ์„ ํฌํ•จํ•œ ๋” ๋„“์€ ๋ฒ”์œ„์˜ ์ž‘์—…์—์„œ ์šฐ๋ฆฌ ๋ชจ๋ธ์˜ ํšจ๊ณผ๋ฅผ ๋ณด์—ฌ์คŒ.

๋‹ค๋ฅธ ์ ‘๊ทผ ๋ฐฉ์‹์€ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์–ธ์–ด ๋˜๋Š” ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ๋ชจ๋ธ์—์„œ ์ˆจ๊ฒจ์ง„ ํ‘œํ˜„์„ ๋Œ€์ƒ ์ž‘์—…์—์„œ ๊ฐ๋…๋œ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๋Š” ๋ณด์กฐ ๊ธฐ๋Šฅ์œผ๋กœ ์‚ฌ์šฉ. ์ด๋Š” ๊ฐ๊ฐ์˜ ๋ณ„๋„ ๋Œ€์ƒ ์ž‘์—…์— ๋Œ€ํ•ด ์ƒ๋‹นํ•œ ์–‘์˜ ์ƒˆ๋กœ์šด ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ํ•„์š”ํ•˜๋ฉฐ, ๋ฐ˜๋ฉด์— ์šฐ๋ฆฌ๋Š” transfer ์ค‘์— ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์— ์ตœ์†Œํ•œ์˜ ๋ณ€๊ฒฝ๋งŒ์„ ์š”๊ตฌ

Auxiliary(๋ณด์กฐ) training objectives

๋ณด์กฐ ๋น„๊ฐ๋… ํ›ˆ๋ จ ๋ชฉํ‘œ๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ์€ semi- supervised learning ์˜ ๋˜ ๋‹ค๋ฅธ ํ˜•ํƒœ.

์šฐ๋ฆฌ์˜ ์‹คํ—˜์—์„œ๋„ ๋ณด์กฐ ๋ชฉํ‘œ๋ฅผ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ๋น„๊ฐ๋… ์‚ฌ์ „ ํ›ˆ๋ จ์€ ์ด๋ฏธ ๋Œ€์ƒ ์ž‘์—…์— ๊ด€๋ จ๋œ ์—ฌ๋Ÿฌ ์–ธ์–ด ์ธก๋ฉด์„ ํ•™์Šตํ•จ

3 Framwork

๋‘๋‹จ๊ณ„๋ฅผ ๊ฑฐ์น˜๋ฉฐ ํ•™์Šตํ•จ

๐Ÿšจ [์‚ฌ์ „ํ›ˆ๋ จ ๋‹จ๊ณ„] ๋Œ€๊ทœ๋ชจ ์›์‹œ ํ…์ŠคํŠธ ์ฝ”ํผ์Šค์—์„œ ๋Œ€์šฉ๋Ÿ‰ ์–ธ์–ด ๋ชจ๋ธ ํ•™์Šต

๐Ÿšจ [๋ฏธ์„ธ์กฐ์ • ๋‹จ๊ณ„] ์›ํ•˜๋Š” ์ž‘์—…์— ๋”ฐ๋ผ ๋ ˆ์ด๋ธ” ์žˆ๋Š” ๋ฐ์ดํ„ฐ ํ™œ์šฉํ•ด ์ฐจ๋ณ„์ ์œผ๋กœ ๋ชจ๋ธ ์ ์‘์‹œํ‚ด

3-1 Unsupervised pre-training

๐Ÿšจ ์–ธ์–ด ๋ชจ๋ธ๋กœ ๋‹ค์ธต Transformer ๋””์ฝ”๋”๋ฅผ ์‚ฌ์šฉ < = > ๋‹ค์Œ์— ๋‚˜์˜ฌ ๋‹จ์–ด๋ฅผ ๋งž์ถ”๋„๋ก ํ•™์Šต Next Word Prediction

ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๋””์ฝ”๋” ๊ตฌ์กฐ

ํŠธ๋žœ์Šคํฌ๋จธ ๋””์ฝ”๋”์™€์˜ ์ฐจ์ด์ 

  • cross self attention ๊ณ„์ธต ์ œ๊ฑฐ๋จ
    • transformer์™€ ๋‹ฌ๋ฆฌ encoder์ด ์—†๊ธฐ ๋•Œ๋ฌธ
    • cross self attention ๊ณ„์ธต์€ Encoder์˜ ์ž…๋ ฅ๊ณผ Decoder์˜ ์ž…๋ ฅ์„ Cross Attention ํ•˜๋Š” ์—ญํ• 

Encoder๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” ์ด์œ 

  1. gpt1์€ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šตํ•˜๊ธฐ ๋•Œ๋ฌธ
    • ์ด๋Š” Decoder๊ฐ€ ์ˆ˜ํ–‰ํ•˜๊ธฐ์— ์ ํ•ฉํ•œ ๋ฌธ์ œ์ž„
    • ์ด์™€ ์ •ํ™•ํžˆ ๋ฐ˜๋Œ€ ์ด์œ ๋กœ BERT์—์„œ๋Š” Transformer์˜ Encoder๋งŒ์„ ์‚ฌ์šฉ
  2. Decoder ๋งŒ์„ ์‚ฌ์šฉํ•˜๋ฉด ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๋” ๊ฐ„๊ฒฐํ•˜๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ๊ณ  ์ด๋กœ ์ธํ•ด ์—ฐ์‚ฐ๋Ÿ‰์ด ์ค„์–ด๋“œ๋Š” ์žฅ์ 

gpt1์˜ ๋””์ฝ”๋” ์ž‘๋™ ํ๋ฆ„

  • ์ž…๋ ฅ ์ปจํ…์ŠคํŠธ ํ† ํฐ์— multi-head self attention ์ ์šฉ
  • ์œ„์น˜๋ณ„ feef forward ๋ ˆ์ด์–ด ์‚ฌ์šฉํ•˜์—ฌ ํƒ€๊นƒ ํ† ํฐ์— ๋Œ€ํ•œ ์ถœ๋ ฅ ๋ถ„ํฌ ์ƒ์„ฑ
  • h0=UWe+Wph_0 = UW_e + W_p
    hl=transformerย block(hlโˆ’1)โˆ€iโˆˆ[1,n]h_l = transformer\space block(h_{l-1}) โˆ€i โˆˆ [1, n]
    P(u)=softmax(hnWeT)P(u) = softmax(h_nW^T_e)
  • U=(uโˆ’k,...,uโˆ’1)U = (u_{-k}, ..., u_{-1}) : ํ† ํฐ์˜ ์ปจํ…์ŠคํŠธ ๋ฒกํ„ฐ
  • n : ๋ ˆ์ด์–ด์˜ ์ˆ˜
  • W_e : ํ† ํฐ ์ž„๋ฒ ๋”ฉ ๋งคํŠธ๋ฆญ์Šค
  • W_p : ์œ„์น˜ ์ž„๋ฒ ๋”ฉ ๋งคํŠธ๋ฆญ์Šค

unsupervised loss function

unsupervised์ธ ์ฝ”ํผ์Šค์˜ ํ† ํฐ U = {u1, ..., un}๋ฅผ ๊ฐ€์ง€๊ณ  ํ‘œ์ค€ ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ชฉํ‘œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฐ€๋Šฅ์„ฑ์„ ์ตœ๋Œ€ํ™” โ†’ maxmize likelihood ์ตœ๋Œ€ ์šฐ๋„ํ™” ๊ธฐ๋ฒ•

  • ์ตœ๋Œ€ ์šฐ๋„ ์ถ”์ •

์šฐ๋„

  • ์–ด๋–ค ํ™•๋ฅ ๋ถ„ํฌ์— ๋Œ€ํ•ด์„œ ์ฃผ์–ด์ง„ ๊ด€์ธก๊ฐ’์ด ๋‚˜์˜ฌ ๊ฐ€๋Šฅ์„ฑ, ๋ถ„ํฌ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ๊ฐ’์ด ๊ด€์ธก๋  ํ™•๋ฅ 
  • ์šฐ๋„๊ฐ€ ํฌ๋‹ค = ํ•ด๋‹น ๋ฐ์ดํ„ฐ๊ฐ€ ๊ด€์ธก๋  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค๋Š” ๊ฒƒ
  • ์ฆ‰ ์ตœ๋Œ€ ์šฐ๋„ ์ถ”์ •์ด๋ž€ ์—ฌ๋Ÿฌ ๊ฐœ ๋ฐ์ดํ„ฐ ๊ด€์ธกํ–ˆ์„ ๋•Œ ํ•ด๋‹น ์‚ฌ๊ฑด๋“ค์˜ ๋ฐœ์ƒํ™•๋ฅ ์„ ์ตœ๋Œ€๋กœ ๋†’์ด๋Š” ๋ถ„ํฌ๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ
    • โ‡’ ๋ฐ์ดํ„ฐ ๊ฐ€์žฅ ์ž˜ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š” ๋ถ„ํฌ ์ฐพ์•„๋‚ด๋Š” ๊ฒƒ

L1(u)=โˆ‘ilogP(uiโˆฃuiโˆ’k,...,uiโˆ’1;ฮ˜)L_1(u) = โˆ‘_i logP(u_i|u_{i-k}, ..., u_{i-1}; ฮ˜)

  • k : ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ์˜ ํฌ๊ธฐ
  • ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  P

๐Ÿšจ ํŠน์ •ํ•œ ๋‹จ์–ด๊ฐ€ ๋งŒ์•ฝ i๋ฒˆ์งธ๋ผ๋ฉด i-1 ๋ถ€ํ„ฐ i-k๋ฒˆ์งธ๊นŒ์ง€์˜ ๋‹จ์–ด๋ฅผ ๋ณด๊ณ , i๋ฒˆ์งธ๊ฐ€ ๋‚˜์˜ฌ ๊ฐ€๋Šฅ์„ฑ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด ๋ผ๋ฒจ์ด ์—†๋Š” ๋ฐ์ดํ„ฐ์—์„œ๋„ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋„๋กย ํ•œ๋‹ค.

์ฆ‰, i๋ฒˆ์งธ text๊ฐ€ ๋‚˜์˜ฌ ํ™•๋ฅ ์— ๋Œ€ํ•ด์„œ ์ตœ๋Œ€ํ™” ํ•˜๋Š” ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— maxmize likelihood(์šฐ๋„ ์ตœ๋Œ€ํ™”) ๊ธฐ๋ฒ•์„ loss function์œผ๋กœ ์„ค์ •ํ•˜์—ฌ ํ•™์Šตํ•œ๋‹ค!!!

  • ์—ญ์ „ํŒŒ ๋•Œ ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• SGD ์‚ฌ์šฉํ•˜์—ฌ ํ›ˆ๋ จ

3-2 Supervised fine-tuning

๐Ÿšจ pre-trained ๋ชจ๋ธ์˜ ์žฅ์ ์„ ์‚ด๋ ค์„œ linear+softmax์˜ layer๋งŒ ์ถ”๊ฐ€ํ•˜๊ณ  ๊ทธ ์ด์ „์€ freeze์‹œ์ผœ์„œ ํ•™์Šต์„ ์ง„ํ–‰ํ•˜์—ฌ fine-tuning์œผ๋กœ ๋ชจ๋ธ์„ ํ•™์Šต

๋ชฉํ‘œ์— ๋”ฐ๋ผ ๋ชจ๋ธ์„ ์‚ฌ์ „ ํ›ˆ๋ จ ํ›„, labeled dataset์„ ๊ฐ€์ง€๋Š” target task์— ๋Œ€ํ•ด ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ ์‘์‹œํ‚ด

input tokens ๐‘ฅ1,โ€ฆ,๐‘ฅ๐‘š๐‘ฅ^1,โ€ฆ,๐‘ฅ^๐‘š ์— ํ•ด๋‹นํ•˜๋Š” label y๋ฅผ ์˜ˆ์ธกํ•ด์•ผ ํ•  ๋•Œ, ์œ„ ๋ชจ๋ธ์˜ ๋งˆ์ง€๋ง‰ ํŠธ๋žœ์Šคํฌ๋จธ ๋ธ”๋ก์˜ activation hlmh^m_l ์„ input์œผ๋กœ ํ•˜๋Š” linear layer๋ฅผ ์ถ”๊ฐ€

P(yโˆฃx1,...,xm)=softmax(hlmWy)P(y|x_1, ..., x_m) = softmax(h^m_l W_y)

์ด๋ฅผ ํ†ตํ•ด ์ตœ๋Œ€ํ™”ํ•  ๋ชฉํ‘œ

โ‡’ ํ•™์Šตํ•˜๊ณ ์ž ํ•  task์— ๋Œ€ํ•œ loss function(์ตœ๋Œ€ ์šฐ๋„):

L2(C)=โˆ‘(x,y)logP(yโˆฃx1,...,xm)L_2(C) = โˆ‘_{(x,y)} logP(y|x^1, ..., x^m)

์ถ”๊ฐ€์ ์œผ๋กœ fine-tuning์— auxiliary objective๋กœ LM์„ ํฌํ—˜ํ•˜๋Š” ๊ฒƒ์ด, supervised model์˜ generalization์„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ , ๋ชจ๋ธ์ด ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ•˜๋„๋กํ•˜์—ฌ ํ•™์Šต์— ๋„์›€์ด ๋จ์„ ํ™•์ธํ•˜์˜€์Œ.

์ฆ‰ ๋‹ค์Œ์˜ objective๋ฅผ ์ตœ์ ํ™”.

L3(C)=L2(C)+ฮปโˆ—L1(C)L_3(C) = L_2(C) + ฮป * L_1(C)

  • L2(C)L_2(C) : supervised fine- tuning
  • L1(C)L_1(C) : unsupervised pre-training

์ „๋ฐ˜์ ์œผ๋กœ, ๋ฏธ์„ธ ์กฐ์ • ์ค‘์— ํ•„์š”ํ•œ ์ถ”๊ฐ€ ๋งค๊ฐœ๋ณ€์ˆ˜๋Š” WyW_y๋ฟ

3-3 Task-specific input transformations

์šฐ๋ฆฌ๋Š” ์ˆœํšŒ ์Šคํƒ€์ผ ์ ‘๊ทผ๋ฒ•์„ ์‚ฌ์šฉ

์—ฌ๊ธฐ์„œ๋Š” ๊ตฌ์กฐํ™”๋œ ์ž…๋ ฅ์„ ์šฐ๋ฆฌ์˜ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์ด ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์ˆœ์„œ ์žˆ๋Š” ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜. ์ด๋Ÿฌํ•œ ์ž…๋ ฅ ๋ณ€ํ™˜์€ ์ž‘์—… ๊ฐ„์— ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ๋ณ€๊ฒฝํ•  ํ•„์š” ์—†์ด ์šฐ๋ฆฌ๊ฐ€ ํšจ๊ณผ์ ์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•จ

๋ชจ๋“  ๋ณ€ํ™˜์—๋Š” ๋ฌด์ž‘์œ„๋กœ ์ดˆ๊ธฐํ™”๋œ ์‹œ์ž‘ ๋ฐ ์ข…๋ฃŒ ํ† ํฐ(<s>, <e>)์ด ํฌํ•จ๋จ

๊ฐ ํ…Œ์Šคํฌ์— ํ•ด๋‹นํ•˜๋Š” ์ž…๋ ฅ์˜ ๋ณ€ํ˜•

์™ผ์ชฝ : ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜, ์ด ์ž‘์—…์—์„œ ์‚ฌ์šฉ๋˜๋Š” ํ•™์Šต ๋ชฉํ‘œ๋“ค / ์˜ค๋ฅธ์ชฝ : ๋ชจ๋“  ๊ตฌ์กฐํ™”๋œ ์ž…๋ ฅ์„ ํ† ํฐ ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์—์„œ ์ฒ˜๋ฆฌํ•œ ๋‹ค์Œ ์„ ํ˜• ์†Œํ”„ํŠธ๋งฅ์Šค ๊ณ„์ธต์„ ์‚ฌ์šฉ

Textual entailment ํ…์ŠคํŠธ ์ถ”๋ก 

์ถ”๋ก  ์ž‘์—…์˜ ๊ฒฝ์šฐ, ์ „์ œ p์™€ ๊ฐ€์„ค h ํ† ํฐ ์‹œํ€€์Šค๋ฅผ ๊ตฌ๋ถ„ ํ† ํฐ($), Delim์„ ์‚ฌ์ด์— ๋‘๊ณ  ์—ฐ๊ฒฐ

Similarity

์œ ์‚ฌ์„ฑ ์ž‘์—…์˜ ๊ฒฝ์šฐ, ๋น„๊ต๋˜๋Š” ๋‘ ๋ฌธ์žฅ ์‚ฌ์ด์— ๊ณ ์œ ํ•œ ์ˆœ์„œ๊ฐ€ ์—†์Œ

์ด๋ฅผ ๋ฐ˜์˜ํ•˜๊ธฐ ์œ„ํ•ด ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ๋‘ ๊ฐ€์ง€ ๊ฐ€๋Šฅํ•œ ๋ฌธ์žฅ ์ˆœ์„œ(์‚ฌ์ด์— ๊ตฌ๋ถ„์ž ํฌํ•จ)๋กœ ์ˆ˜์ •ํ•˜๊ณ  ๊ฐ๊ฐ์„ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ๋‘ ์‹œํ€€์Šค ํ‘œํ˜„์„ ์š”์†Œ๋ณ„๋กœ ์ถ”๊ฐ€ํ•œ ํ›„ ์„ ํ˜• ์ถœ๋ ฅ ๋ ˆ์ด์–ด๋กœ ์ „๋‹ฌ

Question Answering and Commonsense Reasoning

๋ฌธ๋งฅ ๋ฌธ์„œ z, ์งˆ๋ฌธ q ๋ฐ ๊ฐ€๋Šฅํ•œ ๋‹ต๋ณ€ {a_k}์ด ์ฃผ์–ด์ง

์šฐ๋ฆฌ๋Š” ๋ฌธ์„œ ์ปจํ…์ŠคํŠธ์™€ ์งˆ๋ฌธ์„ ๊ฐ ๊ฐ€๋Šฅํ•œ ๋‹ต๋ณ€๊ณผ ํ•จ๊ป˜ ์—ฐ๊ฒฐํ•˜๊ณ , ์‚ฌ์ด์— ๊ตฌ๋ถ„ ํ† ํฐ์„ ์ถ”๊ฐ€ํ•˜์—ฌ [z; q; $; a_k]๋ฅผ ์–ป์Œ.

์ด๋Ÿฌํ•œ ๊ฐ ์‹œํ€€์Šค๋Š” ์šฐ๋ฆฌ ๋ชจ๋ธ๋กœ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌ๋œ ๋‹ค์Œ ๊ฐ€๋Šฅํ•œ ๋‹ต๋ณ€์— ๋Œ€ํ•œ ์ถœ๋ ฅ ๋ถ„ํฌ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์†Œํ”„ํŠธ๋งฅ์Šค ์ธต์„ ํ†ตํ•ด ์ •๊ทœํ™”๋ฉ๋‹ˆ๋‹ค.

4 Experiments & 5 Analysis

๋น„์ง€๋„ ์‚ฌ์ „ ํ•™์Šต - ์‚ฌ์šฉํ•œ ๋ฐ์ดํ„ฐ์…‹

๋น„์ง€๋„ ์‚ฌ์ „ ํ•™์Šต - ๋ชจ๋ธ ์„ธ๋ถ€์‚ฌํ•ญ

  • ๋งˆ์Šคํฌ๋œ ์…€ํ”„ ์–ดํ…์…˜ ํ—ค๋“œ๋ฅผ ๊ฐ€์ง„ 12๊ณ„์ธต์˜ ๋””์ฝ”๋”๋งŒ ์žˆ๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ํ›ˆ๋ จ
  • ์ตœ์ ํ™” ํ•จ์ˆ˜
    • Adam ์ตœ์ ํ™” ์‚ฌ์šฉ - ์ตœ๋Œ€ ํ•™์Šต๋ฅ  2.5e-4
  • ํ™œ์„ฑํ™” ํ•จ์ˆ˜
    • ๊ฐ€์šฐ์‹œ์•ˆ ์˜ค๋ฅ˜ ์„ ํ˜• ์œ ๋‹›, GELU

์ง€๋„ํ•™์Šต - ์ž์—ฐ์–ด ์ถ”๋ก 

์ง€๋„ํ•™์Šต - question answering and commonsense reasoning

์ง€๋„ํ•™์Šต - Semantic similarity and classification

Impact of Number of Layers Transferred & Zero Shot Behaviors

Layer์˜ ๊ฐœ์ˆ˜์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ๊ณผ Zero shot ์„ฑ๋Šฅ ์‹คํ—˜

  1. Transfer์— ์‚ฌ์šฉํ•œ Layer ๊ฐœ์ˆ˜์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ

์‚ฌ์šฉํ•œ ๋ ˆ์ด์–ด๊ฐ€ ๋งŽ์„์ˆ˜๋ก ์„ฑ๋Šฅ ์ ์ฐจ ์ข‹์•„์ง

pretrained ์ •๋ณด๋ฅผ ๋งŽ์ด ์‚ฌ์šฉํ•  ์ˆ˜๋ก Fine Tuning ํ–ˆ์„๋•Œ์˜ ์„ฑ๋Šฅ์ด ์ข‹๋‹ค๋Š” ์˜๋ฏธ

๊ฒฐ๊ณผ์ ์œผ๋กœ Pretrained Model์€ Down Stream Task๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ์— ์œ ์šฉํ•œ ์ •๋ณด๋ฅผ ๋งŽ์ด ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค๋Š”๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์Œ

โ‡’ ์ฆ‰ GPt-1์—์„œ ์ œ์•ˆํ•˜๋Š” ๋‹ค์Œ ๋‹จ์–ด ์˜ˆ์ธกํ•˜๊ธฐ ํ•™์Šต ๋ฐฉ๋ฒ•์€ ๋Œ€๋ถ€๋ถ„์˜ Down Stream Task์— ์ ํ•ฉํ•˜๋‹ค๊ณ  ๊ฒฐ๋ก 

  • Down Stream Task
    • ๊ตฌ์ฒด์ ์œผ๋กœ ํ’€๊ณ  ์‹ถ์€ ๋ฌธ์ œ๋“ค = gpt์™€ ๊ฐ™์ด ์‚ฌ์ „ํ•™์Šต โ†’ ํŒŒ์ธ ํŠœ๋‹ ๋‹จ๊ณ„ ๊ฑฐ์น˜๋Š” ๋ชจ๋ธ๋“ค์ด ํ’€ ๋ฌธ์ œ
  1. Zero Shot ์„ฑ๋Šฅ
  • X ์ถ•
    • Pre-Training์„ ์ง„ํ–‰ํ•œ ์ •๋„
  • ์‹ค์„ 
    • Transformer๋ฅผ ์‚ฌ์šฉํ•œ ์„ฑ๋Šฅ
  • ์ ์„ 
    • LSTM์„ ์‚ฌ์šฉํ•œ ์„ฑ๋Šฅ
  • ๋Œ€๋ถ€๋ถ„์˜ Task์—์„œ Pre-Training์„ ๋งŽ์ด ์ง„ํ–‰ํ–ˆ์„์ˆ˜๋ก ์„ฑ๋Šฅ์ด ์ข‹์œผ๋ฏ€๋กœ,ย Pre-Training ๊ณผ์ •์ด ๋Œ€๋ถ€๋ถ„์˜ Down Stream Task์— ์ ํ•ฉํ•จ
  • ๋˜ํ•œย Transformer ๊ตฌ์กฐ๊ฐ€ LSTM๋ณด๋‹ค ํƒ์›”ํ•จ

Ablation

ํŠน์ • ๊ธฐ๋Šฅ ์ œ๊ฑฐํ•ด๋ด„์œผ๋กœ์จ ๊ทธ ๊ธฐ๋Šฅ์˜ ํšจ๊ณผ๋ฅผ ์‹คํ—˜ํ•ด๋ด„

  1. L1 Auxiliary Objective์˜ ํšจ๊ณผ
  • Fine Tuning ๊ณผ์ •์—์„œ Loss ํ•จ์ˆ˜๋ฅผ Pre-Training Loss์™€ ๊ฐ™์ด ๊ตฌ์„ฑ๊ฐ€๋Šฅ
  • ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•์„ L1 Auxiliary(๋ณด์กฐ์ ์ธ) Objective ๋ผ๊ณ  ํ‘œํ˜„
  • ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด ์ด๋Š” NLI, QQP ๋“ฑ ํฐ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋Š” ๋„์›€์ด ๋˜๊ณ , ์ž‘์€ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋Š” ๋„์›€์ด ์•ˆ๋จ
  1. LSTM๊ณผ์˜ ๋น„๊ต
  • ์ „์ฒด์ ์œผ๋กœ LSTM์„ ์‚ฌ์šฉํ•  ๊ฒฝ์šฐ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ•˜๋ฝ
  • ์ด๋ฅผ ํ†ตํ•ด Transformer ๊ตฌ์กฐ๊ฐ€ LSTM์„ ์‚ฌ์šฉํ•˜๋Š” ๊ตฌ์กฐ๋ณด๋‹ค ์šฐ์ˆ˜ํ•จ์„ ์•Œ ์ˆ˜ ์žˆ์Œ
  1. Pre-Training์˜ ํšจ๊ณผ
  • Pre-Training์„ ์ƒ๋žตํ•  ๊ฒฝ์šฐ ์•„์ฃผ ํฌ๊ฒŒ ์„ฑ๋Šฅ์ด ํ•˜๋ฝ
  • ์ด๋ฅผ ํ†ตํ•ด GPT-1์—์„œ ์ œ์•ˆํ•˜๋Š” Pre-Training ๋ฐฉ์‹์ด ํšจ๊ณผ์ ์ด๋ฉฐ, ์„ฑ๋Šฅ์— ์•„์ฃผ ํฐ ์˜ํ–ฅ์„ ์ค€๋‹ค๋Š” ์‚ฌ์‹ค์„ ์•Œ ์ˆ˜ ์žˆ์Œ
profile
๐Ÿ“ ๋ฐ์ดํ„ฐ์‚ฌ์ด์–ธ์Šค ํ•™๋ถ€์ƒ์˜ ๊ธฐ๋ก์žฅ!

0๊ฐœ์˜ ๋Œ“๊ธ€