Foundation Model과 LLM, LAM, MLLM, VLAM 정리

Bean·2025년 6월 15일
0

인공지능

목록 보기
50/123

오늘은 인공지능(AI)을 공부하거나 관심 있는 분이라면 꼭 알고 넘어가야 할 개념인 Foundation Model과 그 하위 개념인 LLM, LAM, MLLM, VLAM을 한눈에 정리해 보았습니다.


1. Foundation Model이란?

최근 AI 연구에서 가장 큰 변화 중 하나는 ‘한 가지 작업만 잘하는 모델’이 아니라
‘한 번 크게 학습해서 여러 작업에 재활용할 수 있는 범용 모델’을 만든다는 점입니다.

이런 모델을 바로 Foundation Model(기반 모델)이라고 합니다.

핵심 특징

  • 대규모 데이터로 사전 학습(Pre-training)
  • 다양한 작업에 쉽게 추가 학습(Fine-tuning)
  • 텍스트, 이미지, 음성 등 여러 형태의 데이터 처리 가능
  • 대표 예: GPT 시리즈, CLIP, DALL·E

간단히 말하면,

AI의 뿌리가 되는 범용 지능 모델입니다!


2. LLM (Large Language Model)

LLM은 가장 대표적인 Foundation Model의 한 종류입니다.
방대한 텍스트 데이터를 학습하여 인간처럼 자연스러운 문장을 생성하거나,
요약, 번역, 질문 답변 등 다양한 언어 관련 작업을 수행합니다.

대표 예시: GPT-3, GPT-4, BERT, T5


3. LAM (Large Audio Model)

LAM음성/오디오에 특화된 대규모 모델입니다.
음성을 인식하거나 생성하고, 음성의 특징을 이해하여 텍스트로 변환하거나 새로운 음성을 만들어냅니다.

대표 예시: Whisper, VALL-E


4. MLLM (Multimodal Large Language Model)

MLLM멀티모달 모델로,
텍스트뿐만 아니라 이미지, 음성 등 여러 형태의 데이터를 함께 처리할 수 있습니다.
예를 들어, 이미지를 보고 그 내용을 설명하거나, 이미지에 대해 질문을 이해하고 답을 할 수 있습니다.

대표 예시: GPT-4V (Vision 버전), Flamingo, Kosmos-1


5. VLAM (Vision-Language Model)

VLAM은 이미지와 언어를 동시에 이해하는 모델입니다.
이미지를 보고 텍스트로 설명하거나, 텍스트를 보고 관련된 이미지를 생성하는 데 활용됩니다.
MLLM의 한 종류로 볼 수 있습니다.

💡 대표 예시: CLIP, BLIP, LLaVA


6. 비교

이름주요 데이터대표 예
Foundation Model기반 모델범용GPT, CLIP, DALL·E
LLMLarge Language Model텍스트GPT, BERT
LAMLarge Audio Model음성/오디오Whisper
MLLMMultimodal Large Language Model텍스트 + 이미지/음성GPT-4V
VLAMVision-Language Model이미지 + 텍스트CLIP, BLIP

7. 마무리

AI가 점점 더 똑똑해지고 다양한 일을 할 수 있는 이유는
바로 이 Foundation Model 덕분입니다.
앞으로도 LLM, LAM, MLLM, VLAM 같은 다양한 특화 모델들이
우리 일상에 점점 더 깊숙이 들어올 것입니다.

profile
AI developer

0개의 댓글