🎲[AI] Foundation model 정복

mandu·2025년 4월 13일

[AI]

목록 보기

1/20

최근 회사에서 Foundation Model(기반 모델)을 많이 들었다.
LLM이 발전하면서 AI 기술의 핵심 키워드 중 하나로 자리 잡았다는데, 이번 기회에 완전히 정복해보고 싶었다.

1. Foundation model

1.1 Foundation model(기반 모델)이란?

레이블이 지정되지 않은 광범위한 데이터 집합에 대해 훈련된 대규모 인공 지능 모델로, 광범위한 다운스트림 작업에 적용할 수 있는 AI모델

다양한 양식의 레이블이 지정되지 않은 대규모 데이터 세트(language, time-series, tabular, ...)에 대해 self-supervised learning 방식으로 Pre-trained됨
→ 훈련 데이터 수집 및 라벨링을 위한 초기 비용 절감 가능
→ 물론, 추론 비용은 모델 크기의 함수이므로 매우 큰 모델의 경우 더 많은 컴퓨팅 리소스가 필요
대규모 파라미터 존재
특정 테스크에 전문성을 가지도록 fine-tuning 할 수 있음
→ 한번 구축하면 적은 양의 데이터를 사용하여 다운스트림 어플리케이션에 동일한 foundation 모델을 fine-tuning 할 수 있음
ex) LLM(Large Language Model), Transformer model

업스트림(Upstream): 사전 학습 단계(Foundation 모델 생성 단계)
다운스트림(Downstream): 기반 모델을 훈련한 후, 그 모델을 fine-tuning해 특정한 테스크에 적용하는 것

1.2 Foundation Model의 2가지 특징

1. Emergence Behaviors (창발성)

명시적으로 학습하지 않은 작업도 모델이 스스로 수행할 수 있는 특성

이전 세대의 DL 모델은 특정 작업에 특화되어 동작하도록 훈련되었지만,
Foundation 모델은 명시적으로 훈련되지 않은 작업도 수행
행동은 직접 프로그래밍되는 것이 아니라, 데이터를 통해 유추됨
신경망은 확률/통계적 모델을 기반으로 미래 예측 가능
→ 하지만 모델의 출력 이유를 설명하기 힘들다는 단점 존재

2. Homogenization (단일성)

하나의 모델로 다양한 작업을 처리할 수 있는 특성

하나의 모델 아키텍처로 다양한 작업을 수행 가능
Foundation 모델을 기반으로 다양한 특화 모델을 만들 수 있음
→ 서비스 개발 효율성 극대화
단점: bias(편향), hallucination(환각), 저작권 이슈 등
→ 동일한 입력이라도 매번 다른 결과 생성
→ 결과는 불안정하거나 부정확할 수 있음

1.3 Foundation Model Architecture

파운데이션 모델 == Transformer 구조를 기반으로 한 대규모 사전 학습 모델

(1) Input Layer

Embedding Layer: 입력 데이터를 고정 차원 벡터로 변환
ex)
- 텍스트 → 토큰 임베딩 + 포지셔널 임베딩(Transformer 기반 모델에서 순서 정보 추가)
- 이미지 → 패치 임베딩(Patch Embedding, Vision Transformer)
- 음성 → 스펙트로그램 임베딩

(2) Transformer Layers (Encoder / Decoder)

Transformer 기반 아키텍처가 표준
- Self-Attention: 입력 내부 관계 학습
- Feed-Forward Network (FFN): 각 토큰별 비선형 변환
- Residual Connection + Layer Normalization: 학습 안정성

(3) Output Layer

특정 태스크 결과 생성
- 텍스트: Vocabulary Softmax → 다음 토큰 확률
- 이미지: Pixel or Patch Prediction
- 음성: Spectrogram Reconstruction
다운스트림 작업별로 Task-specific Head 부착 가능

1.4 초거대 AI의 한계와 과제

한계

학습 비용 대비 효율성 낮음
현실 세계의 상식 부족
복합 연산이나 소규모 데이터 학습에 약함
기억력 부족: 새로운 정보 학습 및 업데이트 어려움

과제

AI 양극화: 초거대 AI는 자본력을 가진 빅테크 중심
AI Governance와 책임 문제 발생

AI Governance란?
AI의 설계, 사용, 관리, 규제 등을 포함한 전체적인 통제 체계

어떤 데이터로 학습할 것인가?

누구의 윤리 기준을 따를 것인가?

잘못된 결과가 나왔을 때 누가 책임질 것인가?

→ 투명성, 감사 가능성, 공정성, 안전성 등을 담보하는 규칙과 체계가 필요함

2. Foundation Model의 발전 과정

2.1 Pre-training 방식의 진화

기존: 작업마다 모델 설계 및 학습 필요
현재: 다양한 태스크를 위한 사전학습 + 후속 fine-tuning

2.2 Transformer 구조의 등장

2017년 Google의 논문 "Attention is All You Need"
Self-Attention 메커니즘 + 병렬 처리 가능

"Attention is All You Need"
복잡한 순환 구조 없이도, Attention 메커니즘만으로 자연어를 이해하고 생성할 수 있다는 걸 증명한 논문

Encoder-Decoder 구조를 통한 기존 한계 극복
이전에는 RNN, LSTM 등 순차적으로 데이터를 처리하는 구조 → 속도 느리고 긴 문장 처리에 약함
이 논문은 RNN 없이도 Encoder-Decoder를 사용한 동시 병렬 처리 구조를 제시
Encoder: 입력 문장을 인코딩
Decoder: 출력 문장을 생성
각 블록은 Multi-Head Attention + Feed Forward Layer로 구성

Self-Attention 도입

정의: 입력 시퀀스의 각 단어가 같은 시퀀스 내 모든 단어를 참고(attend)하여, 자신의 표현을 갱신하는 메커니즘

목적: 단어 간의 문맥적 관계를 모델링 → 문장 의미를 더 정확히 이해

"나는 오늘 학교에 갔다"라는 문장에서,
"갔다"라는 단어가 "학교", 오늘"을 함께 참고해서 더 정확한 의미를 파악하는 방식

2.3 모델 규모의 폭발적 증가

모델	파라미터 수	학습 데이터
BERT (2018)	1.1억	Wikipedia + BookCorpus
GPT-2 (2019)	15억	WebText
GPT-3 (2020)	1750억	다양한 웹 데이터
GPT-4 (2023)	비공개	멀티모달 학습 포함

2.4 대표적인 Foundation 모델 예시

1. GPT (OpenAI)

자연어 생성, 요약, 번역, 코드 작성 등
ChatGPT, Copilot에 적용

2. BERT (Google)

양방향 문맥 이해
질의응답, 문장 분류 등

3. 기타 모델들

T5: 모든 작업을 텍스트 → 텍스트로 처리
CLIP: 이미지 + 텍스트 동시 이해
DALL·E: 텍스트 → 이미지 생성
Whisper: 음성 → 텍스트 변환

2.5 Foundation 모델의 활용 분야

분야	활용 예시
자연어 처리(NLP)	번역, 요약, 문서 분류, 질의응답, 챗봇
의료	진단 보조, 논문 요약, EMR 분석
법률	계약서 검토, 판례 요약, 법률 질문 응답
코드 생성	GitHub Copilot, 자동 문서화
금융	고객상담, 문서 자동 분석
이미지/비디오	이미지 생성, 영상 자막 생성
교육	AI 튜터, 문제 자동 생성

mandu

만두는 목말라

다음 포스트