
일반적인 AI 모델은 텍스트만 처리하거나, 이미지나 오디오 등 한 가지 데이터 형태에만 특화되어 있지만, 멀티모달(Multimodal)은 텍스트, 이미지, 오디오, 영상 등 서로 다른 형태의 데이터 데이터(모달리티)를 동시에 이해하고 처리할 수 있는 AI 기술이다.
모달리티별 특징 추출
공통 표현 공간으로 통합
이미지 캡셔닝(Image Captioning)은 이미지 속 내용을 자동으로 설명하는 문장을 생성하는 기술로 쉽게 말해, AI가 이미지를 보고 “이 사진에 뭐가 있는지”를 사람처럼 글로 표현할 수 있는 컴퓨터 비전(Computer Vision)과 자연어 처리(NLP) 기술을 결합한 대표적인 멀티모달(Multimodal) 분야이다.
[이미지]
│
▼
[특징 추출 (Feature Extraction)]
├─ CNN (Convolutional Neural Network)
└─ ViT (Vision Transformer)
↓ (이미지 특징 벡터로 변환)
▼
[시퀀스 생성 (Sequence Generation)]
├─ RNN / LSTM
└─ Transformer 기반 언어 모델
↓ (단어를 순차적으로 예측)
▼
[출력 (Caption Output)]
└─ 사람이 읽을 수 있는 자연어 문장
디퓨전 모델은 이미지를 점점 노이즈로 변환한 뒤, 그 노이즈를 다시 제거하면서 원하는 이미지를 생성하는 확률 기반 생성 모델이다.
Stable Diffusion의 작동과정, 출처: https://medium.com/@ayushawasthi2409/
장점:
단점:
스타일 전이(Style Transfer), GAN, 디퓨전(Diffusion)은 모두 이미지를 변환하거나 생성하는 기술이지만 접근 방식이 다르다.
스타일 전이는 주로 기존 이미지의 내용과 다른 이미지의 스타일을 결합하는 데 초점을 맞춘 기술이다. CNN을 활용해 특징을 추출하고 합성하는 방식이라, 비교적 간단하고 빠르지만 생성의 자유도가 낮다.
예) 사진을 ‘고흐 화풍’으로 변경
GAN은 생성자와 감별자가 경쟁하며 점점 더 정교한 가짜 이미지를 만드는 구조이다. 사실적인 결과를 낼 수 있지만, 학습이 까다롭고 불안정할 수 있다.
예) 이미지 생성, 딥페이크, 데이터 증강
디퓨전은 이미지를 노이즈로 변환했다가 그 노이즈를 단계적으로 제거하며 이미지를 복원하는 방식이다. 학습이 안정적이고 세밀한 묘사가 가능하지만, 계산량이 많고 속도가 느리다.
예) Stable Diffusion, Midjourney 같은 최신 이미지 생성 모델에 사용
| 구분 | 스타일 전이 (Style Transfer) | GAN (Generative Adversarial Networks) | 디퓨전 (Diffusion Models) |
|---|---|---|---|
| 핵심 아이디어 | 한 이미지의 내용(Content)과 다른 이미지의 스타일(Style)을 분리·합성 | 생성자(Generator)와 감별자(Discriminator)의 경쟁으로 점점 더 진짜 같은 데이터 생성 | 이미지를 노이즈로 변환 후, 역으로 노이즈를 제거하며 고품질 이미지 생성 |
| 주요 알고리즘 | CNN 기반 특징 추출 및 스타일 합성 | GAN, DCGAN, StyleGAN 등 | DDPM, Stable Diffusion |
| 장점 | 비교적 간단하고 빠르게 스타일 적용 가능 | 매우 현실적인 결과 생성 가능 | 학습 안정성 높고, 세부 묘사 우수 |
| 단점 | 새로운 구조나 대규모 데이터에 취약 | 학습이 불안정하고 모드 붕괴 문제 발생 가능 | 생성 속도가 느리고, 높은 연산 자원 필요 |
| 대표 활용 | 예술적 이미지 변환, 사진 필터 | 이미지 생성, 딥페이크, 데이터 보강 | 이미지 생성, 복원, 스타일 적용, 영상 생성 |
| 대표 서비스/예시 | Prisma, DeepArt | ThisPersonDoesNotExist, 딥페이크 영상 | Stable Diffusion, DALL·E 2, Midjourney |
참고자료1: https://wikidocs.net/275452
참고자료2: https://brunch.co.kr/@b2439ea8fc654b8/71