오늘은 인공지능(AI)을 공부하거나 관심 있는 분이라면 꼭 알고 넘어가야 할 개념인 Foundation Model과 그 하위 개념인 LLM, LAM, MLLM, VLAM을 한눈에 정리해 보았습니다.
최근 AI 연구에서 가장 큰 변화 중 하나는 ‘한 가지 작업만 잘하는 모델’이 아니라
‘한 번 크게 학습해서 여러 작업에 재활용할 수 있는 범용 모델’을 만든다는 점입니다.
이런 모델을 바로 Foundation Model(기반 모델)이라고 합니다.
핵심 특징
간단히 말하면,
AI의 뿌리가 되는 범용 지능 모델입니다!
LLM은 가장 대표적인 Foundation Model의 한 종류입니다.
방대한 텍스트 데이터를 학습하여 인간처럼 자연스러운 문장을 생성하거나,
요약, 번역, 질문 답변 등 다양한 언어 관련 작업을 수행합니다.
대표 예시: GPT-3, GPT-4, BERT, T5
LAM은 음성/오디오에 특화된 대규모 모델입니다.
음성을 인식하거나 생성하고, 음성의 특징을 이해하여 텍스트로 변환하거나 새로운 음성을 만들어냅니다.
대표 예시: Whisper, VALL-E
MLLM은 멀티모달 모델로,
텍스트뿐만 아니라 이미지, 음성 등 여러 형태의 데이터를 함께 처리할 수 있습니다.
예를 들어, 이미지를 보고 그 내용을 설명하거나, 이미지에 대해 질문을 이해하고 답을 할 수 있습니다.
대표 예시: GPT-4V (Vision 버전), Flamingo, Kosmos-1
VLAM은 이미지와 언어를 동시에 이해하는 모델입니다.
이미지를 보고 텍스트로 설명하거나, 텍스트를 보고 관련된 이미지를 생성하는 데 활용됩니다.
MLLM의 한 종류로 볼 수 있습니다.
💡 대표 예시: CLIP, BLIP, LLaVA
이름 | 뜻 | 주요 데이터 | 대표 예 |
---|---|---|---|
Foundation Model | 기반 모델 | 범용 | GPT, CLIP, DALL·E |
LLM | Large Language Model | 텍스트 | GPT, BERT |
LAM | Large Audio Model | 음성/오디오 | Whisper |
MLLM | Multimodal Large Language Model | 텍스트 + 이미지/음성 | GPT-4V |
VLAM | Vision-Language Model | 이미지 + 텍스트 | CLIP, BLIP |
AI가 점점 더 똑똑해지고 다양한 일을 할 수 있는 이유는
바로 이 Foundation Model 덕분입니다.
앞으로도 LLM, LAM, MLLM, VLAM 같은 다양한 특화 모델들이
우리 일상에 점점 더 깊숙이 들어올 것입니다.