์ง๋๋ฒ GPT-1์ ์ด์ด ์ด๋ฒ์ GPT-2์ ๋ํ ๋
ผ๋ฌธ์ด๋ค.
๐ Language Models are Unsupervised Multitask Learners
โ๏ธ๊ฐ๋ ์ ์ ๋ฆฌํ๊ธฐ ์ํด ์์ฑํ ๊ธ๋ก, ๋ด์ฉ์ ์๋ชป๋ ๋ถ๋ถ์ด ์์ ์ ์๋ค๋ ์ ์ฐธ๊ณ ๋ฐ๋๋๋ค.
๋ ผ๋ฌธ์์๋ ์์๊ฐ ์๋์ ๊ฐ์ด ๊ตฌ์ฑ๋์ด์๋ค.
- Introduction
- Approach
- Training Dataset
- Input Representation
- Model
- Experiments
- Language Modeling
- Children's Book Test
- LAMBADA
- Winograd Schema Challenge
- Reading
์ด ๊ธ์ ๋ ผ๋ฌธ ์์๋ฅผ ๊ทธ๋๋ก ๋ฐ๋ผ๊ฐ๊ธฐ๋ณด๋ค๋ ๋ด๊ฐ ๊ณต๋ถํ ๋ ์ดํดํ๊ธฐ ํธํ๋ ํ๋ฆ๋๋ก ์์ฑํ๋ ค๊ณ ํ๋ค.
GPT-1์ ํฌํจํ์ฌ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ unsupervised pre-training๊ณผ supervised fine-tuning 2๋จ๊ณ๋ฅผ ๊ฑฐ์ณ ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. ์ด ๋ฐฉ๋ฒ์ ํน์ task์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง 'narrow expert'๋ผ๋ ์ , ๋ฐ์ดํฐ์ ๋ถํฌ๊ฐ ์กฐ๊ธ์ด๋ผ๋ ๋ฐ๋๋ฉด ๊ฒฐ๊ณผ๊ฐ ๋ถ์์ ํด์ง๋ ์ ์์ ํ๊ณ๋ฅผ ๋ณด์๋ค.
๋ฐ๋ผ์ GPT-2์์๋ ๋ ๋ฒ์ฉ์ ์ธ Language Model(LM)์ ๋ง๋ค๊ณ ์ ํ์๋ค. ์ด๋ฅผ ์ํด fine-tuning ๊ณผ์ ์ ์์ ๊ณ pre-train๋ ๋ชจ๋ธ์ ๋ฐ๋ก task์ ์ ์ฉํ๋ zero-shot ๋ฐฉ์์ ์ฑํํ์๋ค.
์ด ๊ฒฐ๊ณผ, supervise ๊ณผ์ ์ด ์๋ ์ํ๋ก, task๊ณผ ๋ฌด๊ดํ๊ฒ ๋ชจ๋ธ์ ๋ฒ์ฉ์ฑ์ด ๋์์ง๋๋ก ํ ์ ์์๋ค.
zero-shot
โ ๋ชจ๋ธ์๊ฒ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฟ๋ง ์๋๋ผ task์ ๋ํ ์ค๋ช ๋ ํจ๊ป ์ ๋ฌํ๋ค. ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ ๋ฐ์ดํธํ์ง ์๊ณ ์ค๋ช ๋ task์ ๋ง๋ ์ถ๋ ฅ์ ๋ง๋ค์ด๋ธ๋ค.
์ธ์ด ๋ชจ๋ธ์ ์๋์ ๊ฐ์ ์์์ ๊ธฐ๋ฐ์ผ๋ก ๊ณ ์๋์๋ค.
โ ์ด์ ์ ์ฃผ์ด์ง ํ ํฐ๋ค์ ๋ฐํ์ผ๋ก ๋ค์์ ์ฌ ํ ํฐ์ ๋ํ ๋น์ง๋ ๋ถํฌ๋ฅผ ์ถ์ ํ๊ณ ์ด ๊ณผ์ ์ ๋ฐ๋ณตํ์ฌ ๋ฌธ์ฅ์ ์์ฑํ๋ ๋ฐฉ์
๊ธฐ์กด์ single task์ ๊ฒฝ์ฐ ์ด๋ฏธ task๊ฐ ์ ํด์ ธ ์๊ณ ์ด์ ๋ง๋ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅํ๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ์๋ ๊ทธ ์ ๋ ฅ ๋ฐ์ดํฐ๋ง ์ ๊ณตํด์ฃผ๋ฉด ๋์๋ค.
ํ์ง๋ง multu-task์ ๊ฒฝ์ฐ ๋ชจ๋ธ์๊ฒ task์ ๋ํ ์ ๋ณด๋ ํจ๊ป ์ ๊ณตํด์ผ ๊ทธ๊ฒ ๋ง๋ ๊ฒฐ๊ณผ๋ฅผ ์ถ์ ํ ์ ์๋ค.
๋ฐ๋ผ์ GPT-2๋ ๋ชจ๋ธ์ ํ์ต์ํฌ ๋ ์ด๋ค task๋ฅผ ์ํํ ์ง์ ๋ํ ์ ๋ณด๋ฅผ ์ ๋ ฅ ๋ฐ์ดํฐ์ ํจ๊ป ์ ๊ณตํ๋ค.
์)
translation : (translate to french, english text, french text)
reading comprehension : (answer the question, document, question, answer)
๊ธฐ์กด์ ์ฐ๊ตฌ์์๋ news article, text book ๋ฑ์์ ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๋๋ฐ,
์ด ๊ฒฝ์ฐ ํน์ ๋๋ฉ์ธ์ ๋ฐ์ดํฐ๊ฐ ํธํฅ๋๋ ํ๊ณ๊ฐ ์์๋ค.
๋ฐ๋ผ์ GPT-2๋ ๋ฐ์ดํฐ๊ฐ ํ๋์ ๋๋ฉ์ธ์ ์น์ฐ์น์ง ์๊ณ ์ต๋ํ ๋ค์ํ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๊ณ ์ ํ์๋ค. Common Crawl๊ณผ ๊ฐ์ ์น์คํฌ๋ฉ ๋ฐ์ดํฐ์ ์ด ์์์ง๋ง data quality ์ด์๊ฐ ์์ด ์ง์ WebText๋ผ๋ ๋์ฉ๋ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์๋ค.
GPT-2๋ OOV ๋ฌธ์ ์ํ์ ํจ๊ณผ์ ์ธ Byte-Pair-Encoding(BPE) ๋ฐฉ์์ผ๋ก ํ ํฐํ๋ฅผ ์งํํ๋ค.
๊ธฐ์กด์ BPE๋ base character๊ฐ ์ ๋์ฝ๋ ๋จ์์๊ธฐ ๋๋ฌธ์ ์ํ๋ฒณ๋ง์ ํฌํจํ๋ base vocabulary๋ง์ผ๋ก๋ ํฌ๊ธฐ๊ฐ ์๋นํด์ง๋ ํ๊ณ๊ฐ ์์๋ค.
๐ byte์ unicode์ ๋ํ ์ดํด
๋ฐ๋ผ์ base-character๋ฅผ byte ๋จ์๋ก ์ง์ ํ๋ byte-level BPE๋ฅผ ์ ํํ์๊ณ
ํ์ ๋ ์ฌ์ด์ฆ์ vocabulary๋ฅผ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ๊ณ ์ ๋ฐ๋์ ์ผ์ ์์ค ์ด์์ ๋จ์๋ก ๋ณํฉํ์ฌ ์ถ๊ฐํ๋ ๊ณผ์ ์ ํฌํจ์์ผฐ๋ค.
GPT-2๋ ํ๋ผ๋ฏธํฐ ์์ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ๋๋ ธ์ ๋ฟ GPT-1๊ณผ ๊ฑฐ์ ๋๊ฐ์ ๊ตฌ์กฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค.
Layer Normalization block์ ๊ฐ๊ฐ Attention block๊ณผ FFN block ์์ผ๋ก ์ฎ๊ฒผ๋๋ฐ,
์ด๋ฅผ ํตํด gradient๊ฐ vanishing ๋๊ฑฐ๋ exploding ๋์ง ์๋๋ก ํ์๋ค. ๋ Residaul connecntion ์ ํ๋ผ๋ฏธํฐ๋ค์ ์ผ๋ก scalingํ์ฌ ์ธต์ด ๊น์ด์ ธ๋ gradient vanishin์ ์ํํ ์ ์๋๋ก ํ์๋ค.
GPT-2๋ zero-shot ๋ฐฉ์์ผ๋ก๋ ๋ค์ํ NLP task์์ ๊ธฐ์กด์ SOTA ๋ชจ๋ธ๊ณผ ๋น์ทํ๊ฑฐ๋ ๋ ์ข์ ์ฑ๋ฅ์ ๊ธฐ๋กํ์๋ค.
ํ์ง๋ง ์ผ๋ถ task์์๋ ์ข์ง ์์ ์ฑ๋ฅ์ ๋ณด์๋๋ฐ ๊ทธ ์๋ ์๋์ ๊ฐ๋ค.
Summarization
task์ ๋ํด ์ถ๊ฐ์ ์ผ๋ก 'TL;DR' ํ ํฐ์ ์ถ๊ฐํ์ง ์์ ๊ฒฝ์ฐ, ๋ณธ๋ฌธ์์ ๋๋คํ๊ฒ 3๋ฌธ์ฅ์ ๋ฝ์์ ๋๋ณด๋ค ๋ ์ํฐ๋ฆฌ๋ก ์์ฝํ์๋ค.
Translation
'english sentence = french sentence'๋ผ๋ ์ค๋ช
์ ์ฃผ๊ณ 'english sentence = '์ ๊ฐ์ด ์
๋ ฅํ์ ๋, ๊ธฐ์กด ๋ฒ์ญ ๋ชจ๋ธ๋ณด๋ค ํจ์ฌ ๋ฎ์ BLEU ์ ์๋ฅผ ๊ธฐ๋กํ๋ค.
ํ์ง๋ง ์์ด๋ก๋ง ์ด๋ฃจ์ด์ง WebText๋ก ํ์ต์์ผฐ์์๋ ์-๋ถ, ๋ถ-์ ๋ฒ์ญ์ ์ํํ ์ ์์๋ค๋ ์ ์์ ์ ์๋ฏธํ ์คํ์ด์๋ค.
WebText ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๊ฐ ์๋ ํฌ๊ธฐ ๋๋ฌธ์ GPT-2๊ฐ ์ด ๋ฐ์ดํฐ๋ฅผ ์ธ์์ ๋ต์ ๋ฑ์ด๋ด๋ ๊ฒ์ด ์๋์ง์ ๋ํ ์คํ์ ์งํํ์๋ค.
8-grams Bloom filterin ๋ฐฉ์์ ํตํด
๊ธฐ์กด์ ํ์ต๋ฐ์ดํฐ๋ฅผ ํตํด ๋ง๋ค์ด์ง ๋ชจ๋ธ์ด ์์ฑํ ์ถ๋ ฅ์ด ์ธํฐ๋ท์ ์ด๋ฏธ ์กด์ฌํ๋ ์ถ๋ ฅ๊ณผ ๊ฐ์(overlap) ๊ฒฝ์ฐ๋ณด๋ค GPT-2๊ฐ ์์ฑํ ์ถ๋ ฅ์ด ์ธํฐ๋ท์ ์ด๋ฏธ ์กด์ฌํ๋ ์ถ๋ ฅ๊ณผ ๊ฒน์น๋ ๊ฒฝ์ฐ๊ฐ ํจ์ฌ ์ ์ ๊ฒ์ ํ์ธํ ์ ์์๋ค.
์ด๋ฅผ ํตํด GPT-2๋ ๋ฐ์ดํฐ๋ฅผ ์ธ์์ ๋ต์ ๋ฑ์ด๋ด๋ ๊ฒ(Memorization)์ด ์๋๋ผ ์ถ์ ์ ํตํด ๋ต์ ์์ฑํ๋ Generalization ๋ฐฉ์์์ ์ ์ฆํ์๋ค.
๋, ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๊พธ์คํ ํฅ์๋๋ ๋ชจ์ต์ ํตํด Generalzation์์ ์ถ๊ฐ์ ์ผ๋ก ์ธ๊ธํ๋ค.
(โต Memorization ๋ฐฉ์์ด๋ผ๋ฉด ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์๋ฌด๋ฆฌ ์ฆ๊ฐํด๋ ์ผ์ ์์ค ์ด์๋ถํฐ๋ ์ฑ๋ฅ์ด ํฅ์๋์ง ์๋ ํํ๋ฅผ ๋ณด์ผ ๊ฒ)
GPT-2๋ fine-tuning ์์ด unsupervised pre-traing๋ง์ ํตํด zero-shot์ผ๋ก downstream task๋ฅผ ์ํํ ์ ์๋ ๋ฒ์ฉ ์ธ์ด ๋ชจ๋ธ์ ๋ง๋ค๊ณ ์ ํ์๋ค.
Why GPT uses only decoder?
The cases when we use encoder-decoder architectures are typically when we are mapping one type of sequence to another type of sequence, e.g. translating French to English or in the case of a chatbot taking a dialogue context and producing a response. In these cases, there are qualitative differences between the inputs and outputs so that it makes sense to use different weights for them.In the case of GPT-2, which is trained on continuous text such as Wikipedia articles, if we wanted to use an encoder-decoder architecture, we would have to make arbitrary cutoffs to determine which part will be dealt with by the encoder and which part by the decoder. In these cases therefore, it is more common to just use the decoder by itself.
๋ชจ๋ธ์ ๊ตฌ์กฐ๋ '๋ชจ๋ธ์ ๋ชฉ์ '์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค.
์๋ฅผ ๋ค์ด Transformer๋ '๊ธฐ๊ณ ๋ฒ์ญ'์ ๋ชฉํ๋ก ๋ง๋ค์ด์ก๊ณ , ๋ฐ๋ผ์ ์ธ์ดA์ ๋ํ ๋ฌธ๋งฅ์ ํ์ตํ๋ Encoder์ ์ธ์ดB์ ๋ํ ์์ฑ์ ํ์ตํ๋ Decoder๊ฐ ๊ฒฐํฉํ ํํ๋ฅผ ๊ฐ์ง๋ค. Encoder๋ ํ๋์ sequence๊ฐ ๋ค์ด์์ ๋, '์ ์ฒด๋ฅผ ์ฐธ์กฐ'ํ์ฌ ์ด๋ค ๋จ์ด๊ฐ ๋ฌธ์ฅ ๋ด ๋ค๋ฅธ ์ด๋ค ๋จ์ด์ ์ฐ๊ด์ด ์๋์ง๋ฅผ ํ์ ํ๋ค. Decoder๋ (Encoder์์ ์ป์ context vecotr)์ (์ธ์ดB์ ์์ค ๋ฌธ์ฅ ์ค ์์ฑํ ํ ํฐ ์ด์ ์ ๋ํ๋ ํ ํฐ)์ ๋ํ ์ ๋ณด๋ฅผ ์ด์ฉํด ๋ค์์ ์ฌ ํ ํฐ์ ์์ธกํ๋ฉด์ ์ธ์ดB์ ๋ํ ๋ฌธ์ฅ์ ์์ฑํ๋ค. ๋ ์ธ์ดA์ ์ธ์ดB์ ๋ํด ๊ฐ์ค์น๊ฐ ๊ฐ๊ฐ ๋ฌ๋ผ์ผ ํ๊ธฐ ๋๋ฌธ์ ์๋ก ๋ค๋ฅธ ๋ ๊ตฌ์กฐ๋ฅผ ๊ฒฐํฉํ๋ ๋ฐฉ์์ ์ ํํ๋ค.๋ฐ๋ฉด GPT๋ ๋ชจ๋ NLP task๋ฅผ ํ ์คํธ ์์ฑ ๋ฐฉ์์ผ๋ก ํ ์ ์๋ค๊ณ ์๊ฐํด 'ํ ์คํธ ์์ฑ'์ ๋ชฉํ๋ก ๋ง๋ค์ด์ก๋ค. ํ ํฐ์ ์์ธกํ ๋๋ ๋ฏธ๋ ํ ํฐ์ ์ฐธ์กฐํ๋ฉด(=์ปจ๋) ์๋๊ธฐ ๋๋ฌธ์ '์ด์ ํ ํฐ๋ค๋ง ์ฐธ์กฐ'ํ์ฌ ํ์ต์ ์งํํ๋ค. ์ด๋ ์ด์ ํ ํฐ์ ๋ํ attention ์ ๋ณด๋ค์ ์ด๋ฏธ ๋ค์ ํ ํฐ ์์ธก์ ํ๋ฉด์ Decoder์ ์ ์ฅ์ด ๋์ด ์๊ธฐ ๋๋ฌธ์(= masked๊ฐ ์ ์ฉ๋๊ธด ํ์ผ๋ ์ด๋ฏธ encoder์ ์ญํ ์ ์ํ) ๋ณ๋์ Encoder๊ฐ ์์ด๋ ๋ค์ ํ ํฐ ์ถ์ ์ด ๊ฐ๋ฅํ๋ค.
๐ง ์ฐธ๊ณ ํ GitHub
๋ชจ๋ธ์ start_token ๋๋ context๊ฐ ์
๋ ฅ๋๋ฉด ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ค์ ํ ํฐ์ ์์ธกํ๊ณ ์์ธก๋ ํ ํฐ๋ค์ ์ด์ด length๋งํผ์ ๊ธธ์ด๋ฅผ ๊ฐ๋ ๋ฌธ์ฅ์ ์์ฑํ๋ค. ์ด ๋ ์์ธก๋๋ ํ ํฐ์ ๊ฐ์ฅ ํ๋ฅ ์ด ๋์ k๊ฐ์ ํ ํฐ ์ค ํ๋์ด๋ค.
[Python ๋ฌธ๋ฒ ์ ๋ฆฌ]
torch.where(condition, x, y)
: condition์ด ์ฐธ(True)์ด๋ฉด x์์, ๊ฑฐ์ง(False)์ด๋ฉด y์์ ๊ฐ์ ๋ถ๋ฌ์จ๋ค.
์์ ์ฝ๋์์๋ ์ ์ฒด ๋ก์ง๊ฐ๋ค ์ค k๋ฒ์งธ ๋ก์ง๊ฐ๋ณด๋ค ์์ ๋ถ๋ถ์ ๋ก, ๊ทธ๊ฒ ์๋๋ผ๋ฉด ์๋ ๋ก์ง๊ฐ์ ๋ฐํํ์ฌ top-k๊ฐ์ ๋ก์ง๊ฐ๋ง ๋ถ๋ฌ์ค๋๋ก ํ์๋ค.
assert {condition}, "error message"
:raise
์ ๊ฐ์ ์์ธ ์ฒ๋ฆฌ ์ญํ ๋ก, condition์ ๋ณด์ฅํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ error message๋ฅผ ์ถ๋ ฅํ๋ค.
์์ ์ฝ๋์์๋ ์ ๋ ฅ์ผ๋ก start token ๋๋ context ์ค ํ๋๋ง ์ค๋๋ก ์ํฉ์ ์ค์ ํ๊ธฐ ์ํด
start token๊ณผ context๊ฐ ๋ ๋ค ํจ๊ป ์ ๋ ฅ๋๋ ๊ฒฝ์ฐ์ ๋ ๋ค ์ ๋ ฅ๋์ง ์๋ ๊ฒฝ์ฐ,
"Specify exactly one of start_token and context!"๋ฅผ ์ถ๋ ฅํ๋ค.
torch.full(size, value)
: size๋งํผ value๋ก ์ฑ์์ง ํ ์๋ฅผ ๋ฐํํ๋ค.
์์ ์ฝ๋์์๋ start_token ๊ฐ์ด (batch_size, 1)๋งํผ ๋ณต์ ๋์ด ๋ชจ๋ sample์ด start_token ๊ฐ์ ์ฌ์ฉํด ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋๋ก ์ด๊ธฐํํ๊ฒ ๋๋ค.
torch.no_grad()
: ์์ ํ ์งํ ์ ๋ถํ์ํ ๊ธฐ์ธ๊ธฐ ๊ณ์ฐ์ ๋ฐฉ์งํด์ค๋ค.
torch.multinomial(input, num_samples)
: input ํ ์์ ํ๋ฅ ๋ถํฌ๋๋ก num_samples๋งํผ ์ํ๋งํ ์ธ๋ฑ์ค์ ํ ์๋ฅผ ๋ฐํํ๋ค.
์๋ฅผ ๋ค์ดtorch.multinomial([0.2, 0.8], 1)
์ด๋ผ๋ฉด, ์ฒซ๋ฒ์งธ ๋จ์ด๊ฐ ๋์ฌ ํ๋ฅ 20%, ๋๋ฒ์งธ ๋จ์ด๊ฐ ๋์ฌ ํ๋ฅ 80%๋ก ๋จ์ด ํ๋๋ฅผ ์ ํํ๋ค.
์์ ์ฝ๋์์๋ top-k ๋ก์ง๋ค์ ํ๋ฅ ๋ถํฌ์ ๋ฐ๋ผ ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ค.
temperature
(๋ธ๋ก๊ทธ ์ฐธ๊ณ ) [NLP] Temperature
: ๋ก์ง๊ฐ์ ํํํํ์ฌ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ค์ํ๊ฒ ๋ง๋๋ ๋ฐ ์ฌ์ฉํ๋ค.
์ฌ์ฉ์๊ฐ ์์๋ก ์ค์ ํ ์ ์๋ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ก,
- temperature > 1 : ๋ก์ง๊ฐ์ ์๊ฒ ๋ง๋ค์ด ๋ชจ๋ธ์ด ๋ค์ํ ์ ํ์ ํ๋๋ก ํจ
- temperature < 1: ๋ก์ง๊ฐ์ ํฌ๊ฒ ๋ง๋ค์ด ๋ชจ๋ธ์ด ์ผ๊ด๋ ์ ํ์ ํ๋๋ก ํจ
๐ The Illustrated GPT-2 (Visualizing Transformer Language Models)
๐ [๋ฒ์ญ] ๊ทธ๋ฆผ์ผ๋ก ์ค๋ช
ํ๋ GPT-2 (Transformer Language Model ์๊ฐํ)
๐ Tokenization algorithms in Natural Language Processing (NLP)
๐ Too long, didnโt read: AI for Text Summarization and Generation of tldrs
๐ Byte pair encoding ์ค๋ช
(BPE tokenizer, BPE ์ค๋ช
, BPE ์์)
๐ Language Models are Unsupervised Multitask Learners (GPT-2)
Written on May 29th, 2021 by taekyoon.choi
๐ Step-by-Step Illustrated Explanations of Transformer
๐ Decoder-only Transformer model
๐ N_2. GPT-2 from scratch - Model Only
๐ Language Models: GPT and GPT-2
๐ GPT-1๋ถํฐ ChatGPT๊น์งโฆ ๊ทธ๋ฆฌ๊ณ GPT-4์ ๋ํ ์ ๋ง
๐ ํ ํฌ๋์ด์ ์ ๋ฆฌ(BPE,WordPiece,SentencePiece)
๐ Text generation with GPT-2
์ ์ตํ ๊ธ์ด์์ต๋๋ค.