Foundation Model과 LLM, LAM, MLLM, VLAM 정리

Bean·2025년 6월 15일

인공지능

목록 보기

50/123

오늘은 인공지능(AI)을 공부하거나 관심 있는 분이라면 꼭 알고 넘어가야 할 개념인 Foundation Model과 그 하위 개념인 LLM, LAM, MLLM, VLAM을 한눈에 정리해 보았습니다.

최근 AI 연구에서 가장 큰 변화 중 하나는 ‘한 가지 작업만 잘하는 모델’이 아니라
‘한 번 크게 학습해서 여러 작업에 재활용할 수 있는 범용 모델’을 만든다는 점입니다.

이런 모델을 바로 Foundation Model(기반 모델)이라고 합니다.

핵심 특징

간단히 말하면,

AI의 뿌리가 되는 범용 지능 모델입니다!

LLM은 가장 대표적인 Foundation Model의 한 종류입니다.
방대한 텍스트 데이터를 학습하여 인간처럼 자연스러운 문장을 생성하거나,
요약, 번역, 질문 답변 등 다양한 언어 관련 작업을 수행합니다.

대표 예시: GPT-3, GPT-4, BERT, T5

LAM은 음성/오디오에 특화된 대규모 모델입니다.
음성을 인식하거나 생성하고, 음성의 특징을 이해하여 텍스트로 변환하거나 새로운 음성을 만들어냅니다.

대표 예시: Whisper, VALL-E

MLLM은 멀티모달 모델로,
텍스트뿐만 아니라 이미지, 음성 등 여러 형태의 데이터를 함께 처리할 수 있습니다.
예를 들어, 이미지를 보고 그 내용을 설명하거나, 이미지에 대해 질문을 이해하고 답을 할 수 있습니다.

대표 예시: GPT-4V (Vision 버전), Flamingo, Kosmos-1

VLAM은 이미지와 언어를 동시에 이해하는 모델입니다.
이미지를 보고 텍스트로 설명하거나, 텍스트를 보고 관련된 이미지를 생성하는 데 활용됩니다.
MLLM의 한 종류로 볼 수 있습니다.

💡 대표 예시: CLIP, BLIP, LLaVA

이름	뜻	주요 데이터	대표 예
Foundation Model	기반 모델	범용	GPT, CLIP, DALL·E
LLM	Large Language Model	텍스트	GPT, BERT
LAM	Large Audio Model	음성/오디오	Whisper
MLLM	Multimodal Large Language Model	텍스트 + 이미지/음성	GPT-4V
VLAM	Vision-Language Model	이미지 + 텍스트	CLIP, BLIP