์ต๊ทผ ํ์ฌ์์ Foundation Model(๊ธฐ๋ฐ ๋ชจ๋ธ)์ ๋ง์ด ๋ค์๋ค.
LLM์ด ๋ฐ์ ํ๋ฉด์ AI ๊ธฐ์ ์ ํต์ฌ ํค์๋ ์ค ํ๋๋ก ์๋ฆฌ ์ก์๋ค๋๋ฐ, ์ด๋ฒ ๊ธฐํ์ ์์ ํ ์ ๋ณตํด๋ณด๊ณ ์ถ์๋ค.
1. Foundation model
1.1 Foundation model(๊ธฐ๋ฐ ๋ชจ๋ธ)์ด๋?
๋ ์ด๋ธ์ด ์ง์ ๋์ง ์์ ๊ด๋ฒ์ํ ๋ฐ์ดํฐ ์งํฉ์ ๋ํด ํ๋ จ๋ ๋๊ท๋ชจ ์ธ๊ณต ์ง๋ฅ ๋ชจ๋ธ๋ก, ๊ด๋ฒ์ํ ๋ค์ด์คํธ๋ฆผ ์์
์ ์ ์ฉํ ์ ์๋ AI๋ชจ๋ธ
- ๋ค์ํ ์์์ ๋ ์ด๋ธ์ด ์ง์ ๋์ง ์์ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ธํธ(language, time-series, tabular, ...)์ ๋ํด self-supervised learning ๋ฐฉ์์ผ๋ก Pre-trained๋จ
โ ํ๋ จ ๋ฐ์ดํฐ ์์ง ๋ฐ ๋ผ๋ฒจ๋ง์ ์ํ ์ด๊ธฐ ๋น์ฉ ์ ๊ฐ ๊ฐ๋ฅ
โ ๋ฌผ๋ก , ์ถ๋ก ๋น์ฉ์ ๋ชจ๋ธ ํฌ๊ธฐ์ ํจ์์ด๋ฏ๋ก ๋งค์ฐ ํฐ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ๋ ๋ง์ ์ปดํจํ
๋ฆฌ์์ค๊ฐ ํ์
- ๋๊ท๋ชจ ํ๋ผ๋ฏธํฐ ์กด์ฌ
- ํน์ ํ
์คํฌ์ ์ ๋ฌธ์ฑ์ ๊ฐ์ง๋๋ก fine-tuning ํ ์ ์์
โ ํ๋ฒ ๊ตฌ์ถํ๋ฉด ์ ์ ์์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ด์คํธ๋ฆผ ์ดํ๋ฆฌ์ผ์ด์
์ ๋์ผํ foundation ๋ชจ๋ธ์ fine-tuning ํ ์ ์์
- ex) LLM(Large Language Model), Transformer model
์
์คํธ๋ฆผ(Upstream): ์ฌ์ ํ์ต ๋จ๊ณ(Foundation ๋ชจ๋ธ ์์ฑ ๋จ๊ณ)
๋ค์ด์คํธ๋ฆผ(Downstream): ๊ธฐ๋ฐ ๋ชจ๋ธ์ ํ๋ จํ ํ, ๊ทธ ๋ชจ๋ธ์ fine-tuningํด ํน์ ํ ํ
์คํฌ์ ์ ์ฉํ๋ ๊ฒ
1.2 Foundation Model์ 2๊ฐ์ง ํน์ง
1. Emergence Behaviors (์ฐฝ๋ฐ์ฑ)
๋ช
์์ ์ผ๋ก ํ์ตํ์ง ์์ ์์
๋ ๋ชจ๋ธ์ด ์ค์ค๋ก ์ํํ ์ ์๋ ํน์ฑ
- ์ด์ ์ธ๋์ DL ๋ชจ๋ธ์ ํน์ ์์
์ ํนํ๋์ด ๋์ํ๋๋ก ํ๋ จ๋์์ง๋ง,
Foundation ๋ชจ๋ธ์ ๋ช
์์ ์ผ๋ก ํ๋ จ๋์ง ์์ ์์
๋ ์ํ
- ํ๋์ ์ง์ ํ๋ก๊ทธ๋๋ฐ๋๋ ๊ฒ์ด ์๋๋ผ, ๋ฐ์ดํฐ๋ฅผ ํตํด ์ ์ถ๋จ
- ์ ๊ฒฝ๋ง์ ํ๋ฅ /ํต๊ณ์ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ๋ฏธ๋ ์์ธก ๊ฐ๋ฅ
โ ํ์ง๋ง ๋ชจ๋ธ์ ์ถ๋ ฅ ์ด์ ๋ฅผ ์ค๋ช
ํ๊ธฐ ํ๋ค๋ค๋ ๋จ์ ์กด์ฌ
2. Homogenization (๋จ์ผ์ฑ)
ํ๋์ ๋ชจ๋ธ๋ก ๋ค์ํ ์์
์ ์ฒ๋ฆฌํ ์ ์๋ ํน์ฑ
- ํ๋์ ๋ชจ๋ธ ์ํคํ
์ฒ๋ก ๋ค์ํ ์์
์ ์ํ ๊ฐ๋ฅ
- Foundation ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ํ ํนํ ๋ชจ๋ธ์ ๋ง๋ค ์ ์์
โ ์๋น์ค ๊ฐ๋ฐ ํจ์จ์ฑ ๊ทน๋ํ
- ๋จ์ : bias(ํธํฅ), hallucination(ํ๊ฐ), ์ ์๊ถ ์ด์ ๋ฑ
โ ๋์ผํ ์
๋ ฅ์ด๋ผ๋ ๋งค๋ฒ ๋ค๋ฅธ ๊ฒฐ๊ณผ ์์ฑ
โ ๊ฒฐ๊ณผ๋ ๋ถ์์ ํ๊ฑฐ๋ ๋ถ์ ํํ ์ ์์
1.3 Foundation Model Architecture
ํ์ด๋ฐ์ด์
๋ชจ๋ธ == Transformer ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๋๊ท๋ชจ ์ฌ์ ํ์ต ๋ชจ๋ธ
- Embedding Layer: ์
๋ ฅ ๋ฐ์ดํฐ๋ฅผ ๊ณ ์ ์ฐจ์ ๋ฒกํฐ๋ก ๋ณํ
- ex)
- ํ
์คํธ โ ํ ํฐ ์๋ฒ ๋ฉ + ํฌ์ง์
๋ ์๋ฒ ๋ฉ(Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์์ ์์ ์ ๋ณด ์ถ๊ฐ)
- ์ด๋ฏธ์ง โ ํจ์น ์๋ฒ ๋ฉ(Patch Embedding, Vision Transformer)
- ์์ฑ โ ์คํํธ๋ก๊ทธ๋จ ์๋ฒ ๋ฉ
- Transformer ๊ธฐ๋ฐ ์ํคํ
์ฒ๊ฐ ํ์ค
- Self-Attention: ์
๋ ฅ ๋ด๋ถ ๊ด๊ณ ํ์ต
- Feed-Forward Network (FFN): ๊ฐ ํ ํฐ๋ณ ๋น์ ํ ๋ณํ
- Residual Connection + Layer Normalization: ํ์ต ์์ ์ฑ
(3) Output Layer
- ํน์ ํ์คํฌ ๊ฒฐ๊ณผ ์์ฑ
- ํ
์คํธ: Vocabulary Softmax โ ๋ค์ ํ ํฐ ํ๋ฅ
- ์ด๋ฏธ์ง: Pixel or Patch Prediction
- ์์ฑ: Spectrogram Reconstruction
- ๋ค์ด์คํธ๋ฆผ ์์
๋ณ๋ก Task-specific Head ๋ถ์ฐฉ ๊ฐ๋ฅ
1.4 ์ด๊ฑฐ๋ AI์ ํ๊ณ์ ๊ณผ์
ํ๊ณ
- ํ์ต ๋น์ฉ ๋๋น ํจ์จ์ฑ ๋ฎ์
- ํ์ค ์ธ๊ณ์ ์์ ๋ถ์กฑ
- ๋ณตํฉ ์ฐ์ฐ์ด๋ ์๊ท๋ชจ ๋ฐ์ดํฐ ํ์ต์ ์ฝํจ
- ๊ธฐ์ต๋ ฅ ๋ถ์กฑ: ์๋ก์ด ์ ๋ณด ํ์ต ๋ฐ ์
๋ฐ์ดํธ ์ด๋ ค์
๊ณผ์
- AI ์๊ทนํ: ์ด๊ฑฐ๋ AI๋ ์๋ณธ๋ ฅ์ ๊ฐ์ง ๋น
ํ
ํฌ ์ค์ฌ
- AI Governance์ ์ฑ
์ ๋ฌธ์ ๋ฐ์
AI Governance๋?
AI์ ์ค๊ณ, ์ฌ์ฉ, ๊ด๋ฆฌ, ๊ท์ ๋ฑ์ ํฌํจํ ์ ์ฒด์ ์ธ ํต์ ์ฒด๊ณ
- ์ด๋ค ๋ฐ์ดํฐ๋ก ํ์ตํ ๊ฒ์ธ๊ฐ?
- ๋๊ตฌ์ ์ค๋ฆฌ ๊ธฐ์ค์ ๋ฐ๋ฅผ ๊ฒ์ธ๊ฐ?
- ์๋ชป๋ ๊ฒฐ๊ณผ๊ฐ ๋์์ ๋ ๋๊ฐ ์ฑ
์์ง ๊ฒ์ธ๊ฐ?
โ ํฌ๋ช
์ฑ, ๊ฐ์ฌ ๊ฐ๋ฅ์ฑ, ๊ณต์ ์ฑ, ์์ ์ฑ ๋ฑ์ ๋ด๋ณดํ๋ ๊ท์น๊ณผ ์ฒด๊ณ๊ฐ ํ์ํจ
2. Foundation Model์ ๋ฐ์ ๊ณผ์
2.1 Pre-training ๋ฐฉ์์ ์งํ
- ๊ธฐ์กด: ์์
๋ง๋ค ๋ชจ๋ธ ์ค๊ณ ๋ฐ ํ์ต ํ์
- ํ์ฌ: ๋ค์ํ ํ์คํฌ๋ฅผ ์ํ ์ฌ์ ํ์ต + ํ์ fine-tuning
- 2017๋
Google์ ๋
ผ๋ฌธ "Attention is All You Need"
- Self-Attention ๋ฉ์ปค๋์ฆ + ๋ณ๋ ฌ ์ฒ๋ฆฌ ๊ฐ๋ฅ
"Attention is All You Need"
๋ณต์กํ ์ํ ๊ตฌ์กฐ ์์ด๋, Attention ๋ฉ์ปค๋์ฆ๋ง์ผ๋ก ์์ฐ์ด๋ฅผ ์ดํดํ๊ณ ์์ฑํ ์ ์๋ค๋ ๊ฑธ ์ฆ๋ช
ํ ๋
ผ๋ฌธ
- Encoder-Decoder ๊ตฌ์กฐ๋ฅผ ํตํ ๊ธฐ์กด ํ๊ณ ๊ทน๋ณต
์ด์ ์๋ RNN, LSTM ๋ฑ ์์ฐจ์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๊ตฌ์กฐ โ ์๋ ๋๋ฆฌ๊ณ ๊ธด ๋ฌธ์ฅ ์ฒ๋ฆฌ์ ์ฝํจ
์ด ๋
ผ๋ฌธ์ RNN ์์ด๋ Encoder-Decoder๋ฅผ ์ฌ์ฉํ ๋์ ๋ณ๋ ฌ ์ฒ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ์ ์
Encoder: ์
๋ ฅ ๋ฌธ์ฅ์ ์ธ์ฝ๋ฉ
Decoder: ์ถ๋ ฅ ๋ฌธ์ฅ์ ์์ฑ
๊ฐ ๋ธ๋ก์ Multi-Head Attention + Feed Forward Layer๋ก ๊ตฌ์ฑ
- Self-Attention ๋์
- ์ ์: ์
๋ ฅ ์ํ์ค์ ๊ฐ ๋จ์ด๊ฐ ๊ฐ์ ์ํ์ค ๋ด ๋ชจ๋ ๋จ์ด๋ฅผ ์ฐธ๊ณ (attend)ํ์ฌ, ์์ ์ ํํ์ ๊ฐฑ์ ํ๋ ๋ฉ์ปค๋์ฆ
- ๋ชฉ์ : ๋จ์ด ๊ฐ์ ๋ฌธ๋งฅ์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋ง โ ๋ฌธ์ฅ ์๋ฏธ๋ฅผ ๋ ์ ํํ ์ดํด
- "๋๋ ์ค๋ ํ๊ต์ ๊ฐ๋ค"๋ผ๋ ๋ฌธ์ฅ์์,
"๊ฐ๋ค"๋ผ๋ ๋จ์ด๊ฐ "ํ๊ต", ์ค๋"์ ํจ๊ป ์ฐธ๊ณ ํด์ ๋ ์ ํํ ์๋ฏธ๋ฅผ ํ์
ํ๋ ๋ฐฉ์
2.3 ๋ชจ๋ธ ๊ท๋ชจ์ ํญ๋ฐ์ ์ฆ๊ฐ
| ๋ชจ๋ธ | ํ๋ผ๋ฏธํฐ ์ | ํ์ต ๋ฐ์ดํฐ |
|---|
| BERT (2018) | 1.1์ต | Wikipedia + BookCorpus |
| GPT-2 (2019) | 15์ต | WebText |
| GPT-3 (2020) | 1750์ต | ๋ค์ํ ์น ๋ฐ์ดํฐ |
| GPT-4 (2023) | ๋น๊ณต๊ฐ | ๋ฉํฐ๋ชจ๋ฌ ํ์ต ํฌํจ |
2.4 ๋ํ์ ์ธ Foundation ๋ชจ๋ธ ์์
1. GPT (OpenAI)
- ์์ฐ์ด ์์ฑ, ์์ฝ, ๋ฒ์ญ, ์ฝ๋ ์์ฑ ๋ฑ
- ChatGPT, Copilot์ ์ ์ฉ
2. BERT (Google)
- ์๋ฐฉํฅ ๋ฌธ๋งฅ ์ดํด
- ์ง์์๋ต, ๋ฌธ์ฅ ๋ถ๋ฅ ๋ฑ
3. ๊ธฐํ ๋ชจ๋ธ๋ค
- T5: ๋ชจ๋ ์์
์ ํ
์คํธ โ ํ
์คํธ๋ก ์ฒ๋ฆฌ
- CLIP: ์ด๋ฏธ์ง + ํ
์คํธ ๋์ ์ดํด
- DALLยทE: ํ
์คํธ โ ์ด๋ฏธ์ง ์์ฑ
- Whisper: ์์ฑ โ ํ
์คํธ ๋ณํ
2.5 Foundation ๋ชจ๋ธ์ ํ์ฉ ๋ถ์ผ
| ๋ถ์ผ | ํ์ฉ ์์ |
|---|
| ์์ฐ์ด ์ฒ๋ฆฌ(NLP) | ๋ฒ์ญ, ์์ฝ, ๋ฌธ์ ๋ถ๋ฅ, ์ง์์๋ต, ์ฑ๋ด |
| ์๋ฃ | ์ง๋จ ๋ณด์กฐ, ๋
ผ๋ฌธ ์์ฝ, EMR ๋ถ์ |
| ๋ฒ๋ฅ | ๊ณ์ฝ์ ๊ฒํ , ํ๋ก ์์ฝ, ๋ฒ๋ฅ ์ง๋ฌธ ์๋ต |
| ์ฝ๋ ์์ฑ | GitHub Copilot, ์๋ ๋ฌธ์ํ |
| ๊ธ์ต | ๊ณ ๊ฐ์๋ด, ๋ฌธ์ ์๋ ๋ถ์ |
| ์ด๋ฏธ์ง/๋น๋์ค | ์ด๋ฏธ์ง ์์ฑ, ์์ ์๋ง ์์ฑ |
| ๊ต์ก | AI ํํฐ, ๋ฌธ์ ์๋ ์์ฑ |