๋ค์ํ ํ๋ผ๋ฏธํฐ ๊ฐ์๋ก ํ ์คํธ๋ฅผ ์งํํ ํ, 1750์ต๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋ชจ๋ธ์ด GPT3.
๋ชจ๋ธ ํ์ต์ ์ฝ 570GB(570์ต๊ฐ)(3T โ 3000์ต๊ฐ)์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํจ.
์ด ๋ฐ์ดํฐ๋ ์ฝ 8๋ ๋์ ์นํฌ๋กค๋ง์ ํตํด ๋ชจ์๋ฐ์ดํฐ, ์ฑ , wikipedia๋ฑ์ ํตํด ์์งํจ.
gpt2์ ๊ฐ์ ๊ตฌ์กฐ์ธ๋ฐ, ๋ฌธ์ฅ์ ์ ๋ ฅ์ encoder๋ฅผ ํตํด ์๋ฒ ๋ฉ์ ํ๊ณ ๊ทธ ๊ฐ์ decoder๊ฐ ํด๋ ํ๋ ๋ฐฉ์์ด๋ค.
์ด๊ฑฐ๋ AI์ ๋ฑ์ฅ์ผ๋ก ์ผ๋ฐ ์ฑ๋ฅ์ GPU ์๋ฒ๋ก๋ ๋ฌธ์ ํด๊ฒฐ์ด ๊ฑฐ์ ๋ถ๊ฐ๋ฅํด์ก์ต๋๋ค. ๋๊ท๋ชจ AI ๋ชจ๋ธ์ย ๋จ์ผ GPU ์๋ฒ๋ก ํ์ต์ ์ํจ๋ค๋ฉด ์์ญ์์ ์๋ฐฑ ๋ ์ด ๊ฑธ๋ฆด ์๋ ์์ง๋งย ์๋ฐฑ ์ ์ฒ ๊ฐ์ GPU๋ฅผ ๋ณ๋ ฌ๋ก ํ์ตํ ๊ฒฝ์ฐ ์๊ฐ์ ํ์ค์ ์ผ๋ก ํฌ๊ฒ ๋จ์ถํ ์ ์๊ธฐ ๋๋ฌธ์ย ์ํผ์ปดํจํ ์ธํ๋ผ ํ๊ฒฝ ๊ตฌ์ถ์ ํ์์ ์ ๋๋ค. ๋ค์ด๋ฒ์ ๊ฒฝ์ฐ ํ์ดํผํด๋ก๋ฒ๋ฅผ ์ํด 140๊ฐ์ ์ปดํจํ ๋ ธ๋์ 1,120๊ฐ์ GPU๋ฅผ ์ฅ์ฐฉํ ์ํผ์ปดํจํ ์ธํ๋ผ๋ฅผ ๊ตฌ์ถํ๊ณ SKT ์ญ์ 2021๋ ๋ถํฐ ๊ตฌ์ถํด ์ด์ ์ค์ธ ์ํผ์ปดํจํฐ๋ฅผ ์ต๊ทผ ์์ด๋ท ์๋น์ค๋ฅผ ์ํด NVIDIA A100 GPU๋ฅผ ๊ธฐ์กด ๋๋น 2๋ฐฐ์ธ 1,040๊ฐ๋ก ์ฆ์คํ์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ ํํ๊ฒ ์ถ์ฐํ ์๋ ์์ง๋งย ๋ถ๊ฐ์ ์ธ ๋น์ฉ์ ์ ์ธํ๊ณ GPT-3์ ํ์ต์ํค๋ ๋ฐ๋ง ๋๋ต 150์ต~340์ต ์ ์ ๋๊ฐ ์์๋ ๊ฒ์ผ๋ก ์ถ์ ํฉ
ํ๋ผ๋ฏธํฐ ๊ฐ์๋ 6,166,502,400(์ฝ 61์ต๊ฐ)๋ก ํจ์ฌ ์ ์ ํ๋ผ๋ฏธํฐ ์์ด๋ค.
๋ฐ์ดํฐ ๊ฐ์ ๋ํ 3000๋ง๊ฐ๋ก ํจ์ฌ ์ ์ ๊ฐ์์ด๋ค.
์ต์ 3000์ต๊ฐ์ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ค๋ผ๊ณ ํ๋ฉด ๋ฐ์ดํฐ๋ฅผ ๋ด์ ํ์ผ์ ํฌ๊ธฐ๋ ๋๋ต 30TB.(์ฑ๊ธํด ๊ธฐ์ค)
๋ชจ๋ธ์ ํ์ตํ๊ธฐ ์ํด์ ๋ค์ด๋ฒ์ ๊ฒฝ์ฐ ํด๋ก๋ฒ๋ฅผ ํ์ตํ๊ฐ ์ํด 1120๊ฐ์ GPU๋ฅผ ์ฌ์ฉ. SKT๋ ์์ด๋ท์ ํ์ตํ๊ธฐ ์ํด A100 GPU 1040๊ฐ๋ฅผ ์ฌ์ฉํ๋ค.
์ด๋ฌํ ์๋ฃ๋ฅผ ๋ฐํ์ผ๋ก GPT3๋ฅผ ํ์ตํ๋๋ฐ๋ง ๋๋ต 150์ต~340์ต์์ ๋๋ฅผ ์ฌ์ฉํ๋ค๊ณ ์ถ์ ๋๋ค.
๋๋ถ๋ถ์ ๋ชจ๋ธ๋ค์ fine-tuning์ ํ๋ฉด ๋ ์ฑ๋ฅ์ด ๋์์ง๋ค.
์์ฆ์ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ์๋ ํ๋ผ๋ฏธํฐ ์ฌ์ด์ฆ๊ฐ ํฌ๊ธฐ ๋๋ฌธ์ ์ฌํ์ต์ ํ๋๋ฐ ์๊ฐ๊ณผ ์์์ด ๋๋ฌด ๋ง์ด ์์๋์ด fine-tuning์ ํ๋ ๊ฒ์ด ์ด๋ ต๋ค.
์ด๋ฐ fine-tuning์ ํจ์จ์ ์ผ๋ก ํ๊ธฐ ์ํด p-tuning, LoRA์ ๊ฐ์ ๋ฐฉ๋ฒ๋ค์ด ์๊ฐ๊ฐ ๋์๋ค.
๋ ๋ค ๊ธฐ๋ณธ ์๋ฆฌ๋ ๋น์ทํ๋ค. ์ฌ์ ํ๋ จ๋ ๊ฐ์ค์น๋ ๊ทธ๋๋ก ๋๊ณ , ๊ฑฐ๊ธฐ์ ๋ณ๋๋ก ์ถ๊ฐ๋ ๋ ์ด์ด๋ง ์๋ก์ด ๋ฐ์ดํฐ๋ก ํ์ต์ ํฉ๋๋ค.
P-tuning์ ์๋ฒ ๋ฉ ๋ ์ด์ด์ BiLSTM๊ณผ MLP ๋ ์ด์ด๋ฅผ ๋ถ์ฌ์ ํ๋กฌํํธ์ด ์๋ฒ ๋ฉ์ด ํ์ต ๋ฐ์ดํฐ์ ๋ฑ ๋ง๊ฒ ๋์ค๋๋ก tuningํ๋ ๊ฒ์ด๋ค.
LoRA๋ ์ฌ์ ํ๋ จ ๋ชจ๋ธ์ ์ค๊ฐ์ค๊ฐ์ adapter ๋ ์ด์ด๋ฅผ ๋ฃ๊ณ ์ฌ์ ํ๋ จ ๋ ์ด์ด์ adapter ๋ ์ด์ด์ ๊ฒฐ๊ณผ๋ฅผ ํฉ์ณ์ ์ถ๋ ฅ๊ฐ์ ์์ฑํ๋ค.
๋ํ์ธ์ด๋ชจ๋ธ(Large Language Model, LLM)์ ๋ฌธ์ฅ์์ ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋๋ก ํ์ตํ๋ค. ๋ฌธ์ฅ์ ๋จ์ด๋ค์ ํฉ์ด๋, ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๊ณ ์ด๋ ๋ค์ ๋ฌธ์ฅ์ ์์ธกํ๊ฒ ๋๋ค. ์ฆ, ์๋ ์์ฑ๊ณผ ์ ์ฌํ๋ค.
ํ์ง๋ง LLM์ ์ฌ๋์ ์ธ์ด๋ฅผ ์ดํดํด์ ์ํ๋ ๊ฒ์ ์์๋ด๋๋ฐ์๋ ํ๊ณ๊ฐ ์๋ค. ๊ทธ๋์ ๋ค์ํ ๋ต๋ณ์ ๋ชจ๋ธ์ ํตํด ๋ง๋ค์ด๋ธ๋ค.
์ด ํ๊ณ์ ์ ๋ํํ๊ธฐ ์ํด ์ธ๊ฐ ํผ๋๋ฐฑํ ๊ฐํํ์ต(Reinforcement Learning w/Human Feedback, RLHF)์ ์ฌ์ฉํ๋ค. ์ด ๋ชจ๋ธ์ ํตํด ์ฌ์ฉ์์ ์ง์๋ฅผ ๋ฐ๋ฅด๊ณ ๋ง์กฑ์ค๋ฌ์ด ๋ฐ์์ ๋ง๋ค์ด ๋ด๋๋ก ํ๋ค. ์์์ ๋ง๋ค์ด๋ธ ๋ค์ํ ๋ต๋ณ์ ์ฌ๋์ด ๊ฐ์ฅ ์ข์ ๋ต๋ณ๋ถํฐ ๊ฐ์ฅ ๋์ ๋ต๋ณ๊น์ง ๋ผ๋ฒจ๋ง์ ํ์ฌ ํ์ต๋ฐ์ดํฐ๋ก ์ฌ์ฉํ๋ค.
๊ทธ ํ, PPO(Proximal Policy Optimization)์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํ์ฌ ๋ชจ๋ธ์ fine-tuningํ๋ค.
์๋ก์ด ๊ธฐ๋ฅ์ ๋ํ ์ฐ์ ์์ธ์ค, ๋ ๋น ๋ฅธ ์๋ต, ํผํฌ ์๊ฐ๋์๋ ์ผ๋ฐ ์์ธ์ค๊ฐ ๊ฐ๋ฅ
A : ๋ด ํธ๋ํฐ ์๊ธ์ ๋ฅผ ๋ฐ๊พธ๊ณ ์ถ์ด์.
B : [GetUserPlan] (DB ํธ์ถ์์ฒญ)
[UserPlan:๋ฌดํ์๊ธ์ ] (DB ํธ์ถ๊ฒฐ๊ณผ)
๊ณ ๊ฐ๋์ ํ์ฌ ์๊ธ์ ๋ ๋ฌดํ์๊ธ์ ์ด๊ตฐ์. ์ด๋ค ์๊ธ์ ๋ก ๋ฐ๊พธ๊ณ ์ถ๋์
A : ์ข ๋ ์ผ ์๊ธ์ ๊ฐ ์๋์?
B : [GetLowPricePlanThan:๋ฌดํ์๊ธ์ ] (DB ํธ์ถ์์ฒญ)
[LowPricePlanThan:๋ฌดํ์๊ธ์ ->์๋ฐ์๊ธ์ , ๋ฐ๊ฐ์๊ธ์ , ...] (DB ํธ์ถ๊ฒฐ๊ณผ)
๊ณ ๊ฐ๋์ ํ์ฌ ์ํฉ์์๋ ์๋ฐ์๊ธ์ ๊ฐ ์ด๋ ์ค๊น์. ์๋ฐ์๊ธ์ ๋ ์ด๋ฐ ์๋น์ค๋ฅผ ํฌํจํ๊ณ ์์ต๋๋ค....