๐ŸŽฒ[AI] Foundation model ์ •๋ณต

manduยท2025๋…„ 4์›” 13์ผ

[AI]

๋ชฉ๋ก ๋ณด๊ธฐ
1/20

์ตœ๊ทผ ํšŒ์‚ฌ์—์„œ Foundation Model(๊ธฐ๋ฐ˜ ๋ชจ๋ธ)์„ ๋งŽ์ด ๋“ค์—ˆ๋‹ค.
LLM์ด ๋ฐœ์ „ํ•˜๋ฉด์„œ AI ๊ธฐ์ˆ ์˜ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ ์ค‘ ํ•˜๋‚˜๋กœ ์ž๋ฆฌ ์žก์•˜๋‹ค๋Š”๋ฐ, ์ด๋ฒˆ ๊ธฐํšŒ์— ์™„์ „ํžˆ ์ •๋ณตํ•ด๋ณด๊ณ  ์‹ถ์—ˆ๋‹ค.


1. Foundation model

1.1 Foundation model(๊ธฐ๋ฐ˜ ๋ชจ๋ธ)์ด๋ž€?

๋ ˆ์ด๋ธ”์ด ์ง€์ •๋˜์ง€ ์•Š์€ ๊ด‘๋ฒ”์œ„ํ•œ ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ์— ๋Œ€ํ•ด ํ›ˆ๋ จ๋œ ๋Œ€๊ทœ๋ชจ ์ธ๊ณต ์ง€๋Šฅ ๋ชจ๋ธ๋กœ, ๊ด‘๋ฒ”์œ„ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์— ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” AI๋ชจ๋ธ

  • ๋‹ค์–‘ํ•œ ์–‘์‹์˜ ๋ ˆ์ด๋ธ”์ด ์ง€์ •๋˜์ง€ ์•Š์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์„ธํŠธ(language, time-series, tabular, ...)์— ๋Œ€ํ•ด self-supervised learning ๋ฐฉ์‹์œผ๋กœ Pre-trained๋จ
    โ†’ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ๋ผ๋ฒจ๋ง์„ ์œ„ํ•œ ์ดˆ๊ธฐ ๋น„์šฉ ์ ˆ๊ฐ ๊ฐ€๋Šฅ
    โ†’ ๋ฌผ๋ก , ์ถ”๋ก  ๋น„์šฉ์€ ๋ชจ๋ธ ํฌ๊ธฐ์˜ ํ•จ์ˆ˜์ด๋ฏ€๋กœ ๋งค์šฐ ํฐ ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ ๋” ๋งŽ์€ ์ปดํ“จํŒ… ๋ฆฌ์†Œ์Šค๊ฐ€ ํ•„์š”
  • ๋Œ€๊ทœ๋ชจ ํŒŒ๋ผ๋ฏธํ„ฐ ์กด์žฌ
  • ํŠน์ • ํ…Œ์Šคํฌ์— ์ „๋ฌธ์„ฑ์„ ๊ฐ€์ง€๋„๋ก fine-tuning ํ•  ์ˆ˜ ์žˆ์Œ
    โ†’ ํ•œ๋ฒˆ ๊ตฌ์ถ•ํ•˜๋ฉด ์ ์€ ์–‘์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์–ดํ”Œ๋ฆฌ์ผ€์ด์…˜์— ๋™์ผํ•œ foundation ๋ชจ๋ธ์„ fine-tuning ํ•  ์ˆ˜ ์žˆ์Œ
  • ex) LLM(Large Language Model), Transformer model

์—…์ŠคํŠธ๋ฆผ(Upstream): ์‚ฌ์ „ ํ•™์Šต ๋‹จ๊ณ„(Foundation ๋ชจ๋ธ ์ƒ์„ฑ ๋‹จ๊ณ„)
๋‹ค์šด์ŠคํŠธ๋ฆผ(Downstream): ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•œ ํ›„, ๊ทธ ๋ชจ๋ธ์„ fine-tuningํ•ด ํŠน์ •ํ•œ ํ…Œ์Šคํฌ์— ์ ์šฉํ•˜๋Š” ๊ฒƒ


1.2 Foundation Model์˜ 2๊ฐ€์ง€ ํŠน์ง•

1. Emergence Behaviors (์ฐฝ๋ฐœ์„ฑ)

๋ช…์‹œ์ ์œผ๋กœ ํ•™์Šตํ•˜์ง€ ์•Š์€ ์ž‘์—…๋„ ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ํŠน์„ฑ

  • ์ด์ „ ์„ธ๋Œ€์˜ DL ๋ชจ๋ธ์€ ํŠน์ • ์ž‘์—…์— ํŠนํ™”๋˜์–ด ๋™์ž‘ํ•˜๋„๋ก ํ›ˆ๋ จ๋˜์—ˆ์ง€๋งŒ,
    Foundation ๋ชจ๋ธ์€ ๋ช…์‹œ์ ์œผ๋กœ ํ›ˆ๋ จ๋˜์ง€ ์•Š์€ ์ž‘์—…๋„ ์ˆ˜ํ–‰
  • ํ–‰๋™์€ ์ง์ ‘ ํ”„๋กœ๊ทธ๋ž˜๋ฐ๋˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ์œ ์ถ”๋จ
  • ์‹ ๊ฒฝ๋ง์€ ํ™•๋ฅ /ํ†ต๊ณ„์  ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฏธ๋ž˜ ์˜ˆ์ธก ๊ฐ€๋Šฅ
    โ†’ ํ•˜์ง€๋งŒ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ ์ด์œ ๋ฅผ ์„ค๋ช…ํ•˜๊ธฐ ํž˜๋“ค๋‹ค๋Š” ๋‹จ์  ์กด์žฌ

2. Homogenization (๋‹จ์ผ์„ฑ)

ํ•˜๋‚˜์˜ ๋ชจ๋ธ๋กœ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ํŠน์„ฑ

  • ํ•˜๋‚˜์˜ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋กœ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ ๊ฐ€๋Šฅ
  • Foundation ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์–‘ํ•œ ํŠนํ™” ๋ชจ๋ธ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Œ
    โ†’ ์„œ๋น„์Šค ๊ฐœ๋ฐœ ํšจ์œจ์„ฑ ๊ทน๋Œ€ํ™”
  • ๋‹จ์ : bias(ํŽธํ–ฅ), hallucination(ํ™˜๊ฐ), ์ €์ž‘๊ถŒ ์ด์Šˆ ๋“ฑ
    โ†’ ๋™์ผํ•œ ์ž…๋ ฅ์ด๋ผ๋„ ๋งค๋ฒˆ ๋‹ค๋ฅธ ๊ฒฐ๊ณผ ์ƒ์„ฑ
    โ†’ ๊ฒฐ๊ณผ๋Š” ๋ถˆ์•ˆ์ •ํ•˜๊ฑฐ๋‚˜ ๋ถ€์ •ํ™•ํ•  ์ˆ˜ ์žˆ์Œ

1.3 Foundation Model Architecture

ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ == Transformer ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ ํ•™์Šต ๋ชจ๋ธ

(1) Input Layer

  • Embedding Layer: ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณ ์ • ์ฐจ์› ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜
  • ex)
    • ํ…์ŠคํŠธ โ†’ ํ† ํฐ ์ž„๋ฒ ๋”ฉ + ํฌ์ง€์…”๋„ ์ž„๋ฒ ๋”ฉ(Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์—์„œ ์ˆœ์„œ ์ •๋ณด ์ถ”๊ฐ€)
    • ์ด๋ฏธ์ง€ โ†’ ํŒจ์น˜ ์ž„๋ฒ ๋”ฉ(Patch Embedding, Vision Transformer)
    • ์Œ์„ฑ โ†’ ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ ์ž„๋ฒ ๋”ฉ

(2) Transformer Layers (Encoder / Decoder)

  • Transformer ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ํ‘œ์ค€
    • Self-Attention: ์ž…๋ ฅ ๋‚ด๋ถ€ ๊ด€๊ณ„ ํ•™์Šต
    • Feed-Forward Network (FFN): ๊ฐ ํ† ํฐ๋ณ„ ๋น„์„ ํ˜• ๋ณ€ํ™˜
    • Residual Connection + Layer Normalization: ํ•™์Šต ์•ˆ์ •์„ฑ

(3) Output Layer

  • ํŠน์ • ํƒœ์Šคํฌ ๊ฒฐ๊ณผ ์ƒ์„ฑ
    • ํ…์ŠคํŠธ: Vocabulary Softmax โ†’ ๋‹ค์Œ ํ† ํฐ ํ™•๋ฅ 
    • ์ด๋ฏธ์ง€: Pixel or Patch Prediction
    • ์Œ์„ฑ: Spectrogram Reconstruction
  • ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…๋ณ„๋กœ Task-specific Head ๋ถ€์ฐฉ ๊ฐ€๋Šฅ

1.4 ์ดˆ๊ฑฐ๋Œ€ AI์˜ ํ•œ๊ณ„์™€ ๊ณผ์ œ

ํ•œ๊ณ„

  • ํ•™์Šต ๋น„์šฉ ๋Œ€๋น„ ํšจ์œจ์„ฑ ๋‚ฎ์Œ
  • ํ˜„์‹ค ์„ธ๊ณ„์˜ ์ƒ์‹ ๋ถ€์กฑ
  • ๋ณตํ•ฉ ์—ฐ์‚ฐ์ด๋‚˜ ์†Œ๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ํ•™์Šต์— ์•ฝํ•จ
  • ๊ธฐ์–ต๋ ฅ ๋ถ€์กฑ: ์ƒˆ๋กœ์šด ์ •๋ณด ํ•™์Šต ๋ฐ ์—…๋ฐ์ดํŠธ ์–ด๋ ค์›€

๊ณผ์ œ

  • AI ์–‘๊ทนํ™”: ์ดˆ๊ฑฐ๋Œ€ AI๋Š” ์ž๋ณธ๋ ฅ์„ ๊ฐ€์ง„ ๋น…ํ…Œํฌ ์ค‘์‹ฌ
  • AI Governance์™€ ์ฑ…์ž„ ๋ฌธ์ œ ๋ฐœ์ƒ

AI Governance๋ž€?
AI์˜ ์„ค๊ณ„, ์‚ฌ์šฉ, ๊ด€๋ฆฌ, ๊ทœ์ œ ๋“ฑ์„ ํฌํ•จํ•œ ์ „์ฒด์ ์ธ ํ†ต์ œ ์ฒด๊ณ„

  • ์–ด๋–ค ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•  ๊ฒƒ์ธ๊ฐ€?
  • ๋ˆ„๊ตฌ์˜ ์œค๋ฆฌ ๊ธฐ์ค€์„ ๋”ฐ๋ฅผ ๊ฒƒ์ธ๊ฐ€?
  • ์ž˜๋ชป๋œ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์™”์„ ๋•Œ ๋ˆ„๊ฐ€ ์ฑ…์ž„์งˆ ๊ฒƒ์ธ๊ฐ€?

โ†’ ํˆฌ๋ช…์„ฑ, ๊ฐ์‚ฌ ๊ฐ€๋Šฅ์„ฑ, ๊ณต์ •์„ฑ, ์•ˆ์ „์„ฑ ๋“ฑ์„ ๋‹ด๋ณดํ•˜๋Š” ๊ทœ์น™๊ณผ ์ฒด๊ณ„๊ฐ€ ํ•„์š”ํ•จ


2. Foundation Model์˜ ๋ฐœ์ „ ๊ณผ์ •

2.1 Pre-training ๋ฐฉ์‹์˜ ์ง„ํ™”

  • ๊ธฐ์กด: ์ž‘์—…๋งˆ๋‹ค ๋ชจ๋ธ ์„ค๊ณ„ ๋ฐ ํ•™์Šต ํ•„์š”
  • ํ˜„์žฌ: ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ๋ฅผ ์œ„ํ•œ ์‚ฌ์ „ํ•™์Šต + ํ›„์† fine-tuning

2.2 Transformer ๊ตฌ์กฐ์˜ ๋“ฑ์žฅ

  • 2017๋…„ Google์˜ ๋…ผ๋ฌธ "Attention is All You Need"
  • Self-Attention ๋ฉ”์ปค๋‹ˆ์ฆ˜ + ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ

"Attention is All You Need"
๋ณต์žกํ•œ ์ˆœํ™˜ ๊ตฌ์กฐ ์—†์ด๋„, Attention ๋ฉ”์ปค๋‹ˆ์ฆ˜๋งŒ์œผ๋กœ ์ž์—ฐ์–ด๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฑธ ์ฆ๋ช…ํ•œ ๋…ผ๋ฌธ

  1. Encoder-Decoder ๊ตฌ์กฐ๋ฅผ ํ†ตํ•œ ๊ธฐ์กด ํ•œ๊ณ„ ๊ทน๋ณต
    ์ด์ „์—๋Š” RNN, LSTM ๋“ฑ ์ˆœ์ฐจ์ ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ตฌ์กฐ โ†’ ์†๋„ ๋А๋ฆฌ๊ณ  ๊ธด ๋ฌธ์žฅ ์ฒ˜๋ฆฌ์— ์•ฝํ•จ
    ์ด ๋…ผ๋ฌธ์€ RNN ์—†์ด๋„ Encoder-Decoder๋ฅผ ์‚ฌ์šฉํ•œ ๋™์‹œ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๊ตฌ์กฐ๋ฅผ ์ œ์‹œ
    Encoder: ์ž…๋ ฅ ๋ฌธ์žฅ์„ ์ธ์ฝ”๋”ฉ
    Decoder: ์ถœ๋ ฅ ๋ฌธ์žฅ์„ ์ƒ์„ฑ
    ๊ฐ ๋ธ”๋ก์€ Multi-Head Attention + Feed Forward Layer๋กœ ๊ตฌ์„ฑ
  1. Self-Attention ๋„์ž…
    • ์ •์˜: ์ž…๋ ฅ ์‹œํ€€์Šค์˜ ๊ฐ ๋‹จ์–ด๊ฐ€ ๊ฐ™์€ ์‹œํ€€์Šค ๋‚ด ๋ชจ๋“  ๋‹จ์–ด๋ฅผ ์ฐธ๊ณ (attend)ํ•˜์—ฌ, ์ž์‹ ์˜ ํ‘œํ˜„์„ ๊ฐฑ์‹ ํ•˜๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜
    • ๋ชฉ์ : ๋‹จ์–ด ๊ฐ„์˜ ๋ฌธ๋งฅ์  ๊ด€๊ณ„๋ฅผ ๋ชจ๋ธ๋ง โ†’ ๋ฌธ์žฅ ์˜๋ฏธ๋ฅผ ๋” ์ •ํ™•ํžˆ ์ดํ•ด
    • "๋‚˜๋Š” ์˜ค๋Š˜ ํ•™๊ต์— ๊ฐ”๋‹ค"๋ผ๋Š” ๋ฌธ์žฅ์—์„œ,
      "๊ฐ”๋‹ค"๋ผ๋Š” ๋‹จ์–ด๊ฐ€ "ํ•™๊ต", ์˜ค๋Š˜"์„ ํ•จ๊ป˜ ์ฐธ๊ณ ํ•ด์„œ ๋” ์ •ํ™•ํ•œ ์˜๋ฏธ๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๋ฐฉ์‹

2.3 ๋ชจ๋ธ ๊ทœ๋ชจ์˜ ํญ๋ฐœ์  ์ฆ๊ฐ€

๋ชจ๋ธํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜ํ•™์Šต ๋ฐ์ดํ„ฐ
BERT (2018)1.1์–ตWikipedia + BookCorpus
GPT-2 (2019)15์–ตWebText
GPT-3 (2020)1750์–ต๋‹ค์–‘ํ•œ ์›น ๋ฐ์ดํ„ฐ
GPT-4 (2023)๋น„๊ณต๊ฐœ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•™์Šต ํฌํ•จ

2.4 ๋Œ€ํ‘œ์ ์ธ Foundation ๋ชจ๋ธ ์˜ˆ์‹œ

1. GPT (OpenAI)

  • ์ž์—ฐ์–ด ์ƒ์„ฑ, ์š”์•ฝ, ๋ฒˆ์—ญ, ์ฝ”๋“œ ์ž‘์„ฑ ๋“ฑ
  • ChatGPT, Copilot์— ์ ์šฉ

2. BERT (Google)

  • ์–‘๋ฐฉํ–ฅ ๋ฌธ๋งฅ ์ดํ•ด
  • ์งˆ์˜์‘๋‹ต, ๋ฌธ์žฅ ๋ถ„๋ฅ˜ ๋“ฑ

3. ๊ธฐํƒ€ ๋ชจ๋ธ๋“ค

  • T5: ๋ชจ๋“  ์ž‘์—…์„ ํ…์ŠคํŠธ โ†’ ํ…์ŠคํŠธ๋กœ ์ฒ˜๋ฆฌ
  • CLIP: ์ด๋ฏธ์ง€ + ํ…์ŠคํŠธ ๋™์‹œ ์ดํ•ด
  • DALLยทE: ํ…์ŠคํŠธ โ†’ ์ด๋ฏธ์ง€ ์ƒ์„ฑ
  • Whisper: ์Œ์„ฑ โ†’ ํ…์ŠคํŠธ ๋ณ€ํ™˜

2.5 Foundation ๋ชจ๋ธ์˜ ํ™œ์šฉ ๋ถ„์•ผ

๋ถ„์•ผํ™œ์šฉ ์˜ˆ์‹œ
์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP)๋ฒˆ์—ญ, ์š”์•ฝ, ๋ฌธ์„œ ๋ถ„๋ฅ˜, ์งˆ์˜์‘๋‹ต, ์ฑ—๋ด‡
์˜๋ฃŒ์ง„๋‹จ ๋ณด์กฐ, ๋…ผ๋ฌธ ์š”์•ฝ, EMR ๋ถ„์„
๋ฒ•๋ฅ ๊ณ„์•ฝ์„œ ๊ฒ€ํ† , ํŒ๋ก€ ์š”์•ฝ, ๋ฒ•๋ฅ  ์งˆ๋ฌธ ์‘๋‹ต
์ฝ”๋“œ ์ƒ์„ฑGitHub Copilot, ์ž๋™ ๋ฌธ์„œํ™”
๊ธˆ์œต๊ณ ๊ฐ์ƒ๋‹ด, ๋ฌธ์„œ ์ž๋™ ๋ถ„์„
์ด๋ฏธ์ง€/๋น„๋””์˜ค์ด๋ฏธ์ง€ ์ƒ์„ฑ, ์˜์ƒ ์ž๋ง‰ ์ƒ์„ฑ
๊ต์œกAI ํŠœํ„ฐ, ๋ฌธ์ œ ์ž๋™ ์ƒ์„ฑ

profile
๋งŒ๋‘๋Š” ๋ชฉ๋ง๋ผ

0๊ฐœ์˜ ๋Œ“๊ธ€