
Modality๋ โ์์โ, โ์์โ์ด๋ผ๋ ๋ป์ผ๋ก, ๋ณดํต ์ด๋ค ํํ๋ก ๋ํ๋๋ ํ์์ด๋ ๊ทธ๊ฒ์ ๋ฐ์๋ค์ด๋ ๋ฐฉ์์ ๋งํ๋ค.
AI๊ฐ ๋ฑ์ฅํ๊ธฐ ์ ์๋ ์ฌ์ฉ์์๊ฒ ๋ณด์ด๊ฑฐ๋ ์
๋ ฅํ๋ ๋ฐฉ์ ๋ฑ์ ํ๋๋ก ๋จ์ํํ์ฌ ๊ตฌํํ ๊ฒ์ Uni Modality๋ผ๊ณ ํ์ผ๋ฉฐ, ๋ง์ฐ์ค์ ํค๋ณด๋, ํ๋ฉด๊ณผ ์์ฑ ๋ฑ ์ฌ๋ฌ ์ฑ๋์ ์ด์ฉํ๋ฉด Multi Modality๋ผ๊ณ ํ๋ค.
AI๊ฐ ๋ฑ์ฅํ ์ดํ์๋ ์ฌ๋์ด ์ด๋ค ํ์์ ์ธ์ํ๋ ๊ฒ๊ณผ ๊ฐ์ด ์๊ฐ, ์ฒญ๊ฐ ๋ฑ ๋ค์ํ ์๋ฃ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต ๋ฐ ์ฌ๊ณ ํ๋ ๋ฐฉ์์ Multi Modal AI๋ผ๊ณ ๋ถ๋ฅธ๋ค.
๋ฑ์ฅ ๋ฐฐ๊ฒฝ
High-Level, Low-Level์ ๋ํด์๋ ๋ค๋ค ๋ค์ด๋ดค์ ๊ฒ์ด๋ค. ์๋ฌด๋ฆฌ High-Level์ด๋ผ๋ ์ง์ ์ปดํจํฐ๋ฅผ ๋ฐฐ์์ผ ํ๊ณ , ์ด๋ฅผ ๋ค์ ์ปดํจํฐ๊ฐ ์ดํดํ ์ ์๋ ํํ๋ก ๋ณํํด์ผ ํ๋ค. ๋ฐ๋ผ์ ๋ณด๋ค ์ฝ๊ฒ ์ปดํจํฐ๋ฅผ ์ฌ์ฉํ๊ณ ์ ์ฆ, ์ปดํจํฐ๊ฐ ์ธ๊ฐ์ ์ธ์ด๋ฅผ ์ดํดํ๊ฒ ํ๊ณ ์ NLP๊ฐ ๋ฑ์ฅํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์ปดํจํฐ๊ฐ ๊ธฐ๋ณธ์ ์ธ ๋ช
์ ์ ์ถ๋ก ์ ํ ์ ์๊ฒ ๋์๋ค.
ํ์ง๋ง ์ฌ๋์ด ์ ๋ณด๋ฅผ ํตํด ์ง์์ ์ต๋ํ๊ณ ์ํตํ๋ ๊ณผ์ ์๋ ์์ฐ์ด๋ง ๊ด์ฌํ๋ ๊ฒ์ด ์๋๋ค. ์๊ฐ, ์ฒญ๊ฐ, ํ๊ฐ, ์ด๊ฐ, ๋ฏธ๊ฐ ๋ฑ ๋ค์ํ ๊ฐ๊ฐ์ ์ฌ์ฉํ๋ค. ๋ฐ๋ผ์ ์ปดํจํฐ๊ฐ ์ธ๊ฐ์ ์์ฌ์ํต ๋ฐฉ์์ ์ดํดํ๊ฒ ํ๊ณ ์ Multi Modal์ด ๋ฑ์ฅํ๋ค. ์๋ฅผ ๋ค๋ฉด, Vision Task๋ ์ธ๊ฐ์ ์๊ฐ์ ๋ชจ๋ฐฉํ๊ณ , ์ ํธ ๋ฐ ์ฃผํ์ ๋ถ์์ ์ฒญ๊ฐ์, NLP๋ ์์ฐ์ด๋ฅผ ๋ชจ๋ฐฉํ ๊ฒ์ด๋ค.
DALL-E
OpenAI๋ ํ
์คํธ๋ง์ผ๋ก๋ ์ ๋ณด๊ฐ ์ค์ ๋ก ์ด๋ค ํํ๋ก ์กด์ฌํ๋์ง ์ ์ ์๊ธฐ ๋๋ฌธ์ Multi Modal์ ํ์ฉํด์ DALL-E๋ฅผ ๊ฐ๋ฐํ๋ค๊ณ ํ๋ค.
์ฌ๋์ด ์
๋ ฅํ ๋ฌธ์ฅ์ ๋ํด์ ๊ทธ๋ฆผ๊ณผ ์ฌ์ง์ผ๋ก ์ถ๋ ฅํ์ฌ ๋ชจ๋ธ์ด ํ
์คํธ์ ๋ด์ฉ์ ์ด๋ป๊ฒ ์ดํดํ๊ณ ์๋์ง๋ฅผ ์๊ฐํํด์ค๋ค.
DALL-E ์ธ
GPT-4V ์ด๋ฏธ์ง ๋ถ์, ํ
์คํธ๋ก ์ค๋ช
, ์ฃผ์ด์ง ์ด๋ฏธ์ง์ ์๊ฐ์ ํฌ์ธํฐ ์ถ๊ฐ, ๋น๋์ค ํ๋ ์ ๋ถ์ ๋ฑ
LG์ ์์ฌ์ ํ
์คํธ๋ฅผ ์ด๋ฏธ์ง๋ก ํํ, ์ด๋ฏธ์ง๋ฅผ ํ
์คํธ๋ก ์ค๋ช
ํ๋ ์๋ฐฉํฅ(ํ์ฌ GPT๋ ๊ฐ๋ฅ)
Stable Diffusion ํ
์คํธ ๊ธฐ๋ฐ ์ด๋ฏธ์ง ์์ฑ ๋ฐ ํธ์ง ๋ชจ๋ธ
๋ค์ด๋ฒ์ ์ค๋งํธ ๋ ์ฆ

์ถ์ฒ
์ผ์ฑ SDS ์ธ์ฌ์ดํธ ๋ฆฌํฌํธ
์ฌ์ง: ๋ค์ด๋ฒ ์ ๊ณต
1. ์ฐจ๋ ๋ด ์ธํฐํ์ด์ค ๊ฐ์ ์ ์ํ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ
์์จ์ฃผํ, ์ธํฌํ
์ธ๋จผํธ AI ์๋น์ค์ ๊ฐ๋ฐ ๋ฐ ๊ณ ๋ํ๋ฅผ ์ํ ์ฐจ๋ ๋ด ํ์น์ ์ํฉ ์ธ์ ์์ ๋ฐ์ดํฐ์ด๋ค.
๋ฐ์ดํฐ ๊ตฌ์กฐ
์ฐจ๋ ๋ด ์ธํฐํ์ด์ค ์กฐ์์ ์ํ ์ ์คํฐ ์ดฌ์ ์์
์์์์ ์ถ์ถํ ํ๋ ์ ์ด๋ฏธ์ง
์์์์ ์ถ์ถํ ์์ฑ

์ฌ๊ธฐ์ ์ธํฌํ
์ธ๋จผํธ๋ฅผ ์ ๊น ์ค๋ช
ํ๊ณ ๊ฐ์๋ฉด, info์ entertainment์ ํฉ์ฑ์ด์ด๋ค. ์ ๋ณด๋ฅผ ์ต๋ํ์ฌ ์ฌ์ฉ์์๊ฒ ์ ๊ณตํ๋ ๊ณผ์ ์์ ์ฌ์ฉ์์๊ฒ ์ฌ๋ฏธ ์์๋ฅผ ๋ํด์ฃผ๋ ๊ฒ์ด๋ค.
๊ฐ์ธ์ ์ผ๋ก ํ์ฌ ํ์ํ ๊ฒ๋ค์ ๋ง์ด ๊ฐ๋ฐ์ด ๋์๊ธฐ์ ์์ผ๋ก๋ ์ฆ๊ฑฐ์ด ๊ฒ๋ค์ด ์ฃผ๋ฅ๋ฅผ ์ฐจ์งํ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋ ๋๋ ์ธํฌํ
์ธ๋จผํธ์ ๋ํ ๊ด์ฌ์ด ๊ฐ๋ค.
2. ์ ์ ๊ฑด๊ฐ์ง๋จ ๋ฐ ์์ธก์ ์ํ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ
ํ์๊ตฐ๊ณผ ๊ฑด๊ฐ๋์กฐ๊ตฐ์ ๋์์ผ๋ก ์์ ์๋ฃ ๋ฐ์ดํฐ, ์๋ฉด ๋ฐ์ดํฐ, ์์ฑ, ๋ผ์ดํ๋ก๊ทธ ๋ฐ์ดํฐ ํ๋์ ํตํด ์ต์ ์ธ๊ณต์ง๋ฅ ํ์ต ๊ธฐ์ ์ ์ฉ์ด ๊ฐ๋ฅํ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถํ ๊ฒ์ด๋ค.
์ ์ ์งํ์ ๊ฐ๊ธฐ์ ๊ฑธ๋ ค ๋ชธ์ด ์ํ๋ฏ์ด ๋ง์์ด, ๋จธ๋ฆฌ๊ฐ ์ ์ ์ํ ๊ฒ์ผ ์๋ ์์์๋ ๋ถ๊ตฌํ๊ณ ์์ง ์ฌํ์ ์ธ ์ธ์์ด ๋ถ์ ์ ์ด๋ค. ์ ๋์ ์ข
๋ฅ์ ๋ฐ๋ผ ๋ค๋ฅด๊ฒ ์ง๋ง, ์กฐ๊ธฐ์ ๋น ๋ฅธ ์ง๋จ์ ํตํด ์น๋ฃ๊ฐ ํ์ํ ์ํฉ์ ์ํด ๋๊ตฌ๋ ํธ๋ฆฌํ๊ฒ ์ฌ์ฉ ๊ฐ๋ฅํ AI ์๋ด์ฌ์ ๋ํ ์์ด๋์ด๋ฅผ ๊ฐ์ง๊ณ ์์๋๋ฐ ์ด๋ ๊ฒ ๋ฐ์ดํฐ์
์ด ๋์์ฃผ๋ ๊ฐ์ฌํ ๋ฐ๋ฆ์ด๋ค!
๊ฐ์ฅ ์ฒ์ Multi Modal์ ๋ํด์ ์๊ฒ ๋ ๊ณ๊ธฐ์ด๋ค. ํ๊ธฐ ์ค(24๋
1ํ๊ธฐ)์ ํด๋ณผ ๋งํ ๋์ธํ๋์ด ์์๊น ์ถ์ด ์ฐพ์๋ดค๋ค. ์๋ฐ์ฌ๊น์ง๋ ๋ชจ์ง ๋์์ด๊ณ ํ๊ธฐ ์ค์ด์์ด์ ์ง์์ ๋ชปํ์ง๋ง ์์๋ณด๋ฉฐ ํฌ์คํ
๊น์ง ํ ์ ์๊ฒ ๋ ๊ณ๊ธฐ๊ฐ ๋์๋ค.
์ ์ ๊ฑด๊ฐ ์ง๋จ ํ๋ก์ ํธ๋ ์ค์ ์๋ด์ ๋ชฉํ๋ก ํ๊ธฐ์ ์์ ์ค๋ช
ํ Vision๊ณผ NLP๋ฅผ ๊ฒฐํฉํ ๊ฒ์ด ์๋, ์์ฑ ์ ํธ์ NLP๋ฅผ ๊ฒฐํฉํ ํ๋ก์ ํธ์ด๋ค.
์ฐธ๊ณ ๋งํฌ
Fellowship 6๊ธฐ ์ฐ๊ตฌ ๊ณผ์
Multi-modal ๊ฐ์ ์ธ์ AI ๋ชจ๋ธ ๊ฐ๋ฐ - ์ฐ๊ตฌ๊ณผ์ (2)
๊ฐ๋จํ ๋ด์ฉ ์ ๋ฆฌ๋ฅผ ํ์๋ฉด ์๋์ ๊ฐ๋ค. ์์ธํ ๋ด์ฉ์ ์ ๋งํฌ๋ฅผ ํ๊ณ ๋ค์ด๊ฐ๋ณด์ธ์!
์ฐ๊ตฌ ๋ชฉ์
์คํธ๋ ์ค(์ฐ์ธ) ํน์ ๊ฐ์ ์ํ(๊ธฐ์จ, ์ฌํ, ๋ถ๋
ธ, ํ์ค, ๋ถ์ ๋ฑ)๋ฅผ ์์ฑ๊ณผ ์ธ์ด(์์ฒด์ ํธ) ๊ฐ์ ์ด์ฉํ์ฌ ํ๋ฅ ๋ก ๋ณด์ฌ์ฃผ๋ ๊ฒ์ด ๋ชฉ์
์ฐ๊ตฌ ๊ณผ์ ์์
๋ฐ์ดํฐ: AI Hub์ Multi Modal(์์, ์์ฑ, ํ
์คํธ) ๋ฐ์ดํฐ์
์ ํ์ฉํ์ฌ Negative, Neutral, Positive์ ์ธ ๊ฐ์ง ํด๋์ค๋ก ๊ฐ์ ์ธ์ ๋ถ๋ฅ ์ํ
NLP: Rule-Based Approach๋ก ์ ์ฒ๋ฆฌ ์ดํ Labelingํ๋ ๋ฐฉ์ ์ฌ์ฉ
Feature Extraction: ์์ฑ ๋ฐ์ดํฐ โ FFT ์ ์ฉ ํ ์ฃผํ์ ๋ถ์์ ํตํ ์ต์ ๋ถ์
๋
ผ๋ฌธ ๋งํฌ
github ๋งํฌ
๋ฆฌ๋ทฐ ๋งํฌ
์ธ์ฉ ํ์๊ฐ ๋ฌด๋ ค 143ํ...
citation
Ye, Qinghao, et al. "mplug-owl2: Revolutionizing multi-modal large language model with modality collaboration."ย Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.
๊ธฐ์กด์ MLLM ๊ตฌ์ถ ๋ฐฉ๋ฒ
1. Vision ๋ฐ์ดํฐ์์ ์ถ์ถํ ํน์ง์ pre-trained LLM์ alignํ๋ ๋ฐฉ์์ผ๋ก ๋จ์ํ์ง๋ง, ์ด๋ฏธ์ง์์ ์ถ์ถํ ํน์ง ๋ฒกํฐ๋ฅผ LLM์ ๋ผ์๋ฃ์ ์ ์๋๋ก ๋ฐ์ดํฐ์ ํํ๋ง ๋ง์ถ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ์๋ก ๋ค๋ฅธ modality์ ํ์
์ด ์ ํ๋๋ค.
2. Vision Model์ ์ถ๋ ฅ ๊ฒฐ๊ณผ์ธ text embedding์ pre-trained LLM์ ์ต์ข
์ ํ ๋ ์ด์ด์ ์น๋ ๋ฐฉ์ ๋ํ ๋จ์ํ ๋ฐฉ์์ด์ง๋ง, ์ด๋ฏธ์ง๋ก๋ถํฐ ์ถ์ถํ ํน์ง ๋๋ text embedding๋ง์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ๊ณ ์ ํ ํน์ง์ ๋์น ์ ์๋ค.
3. Instruction Tuning๊ณผ ๊ฐ์ Fine-Tuning ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ ๋ฐฉ์์ Multi Modal task์์ ์ค์ํ ์ฑ๋ฅ์ธ ํน์ง ์ถ์ถ ์ฑ๋ฅ์ ํฅ์๋ ์ง๋ผ๋, text generation task์ ์ฑ๋ฅ์ ์ ํ๋ ์ฐ๋ ค๊ฐ ์์ด ์ง์ํ๋ค.
4. Vision Model์ freezeํ ํ LLM๊ณผ ๊ฒฐํฉํ์ฌ fine-tuning์ ์ํํ ๊ฒฝ์ฐ ๋ณต์กํ ์ด๋ฏธ์ง์ high-level feature extraction(๊ฐ์ฒด ๊ฐ ๊ด๊ณ ๋ฑ) ์ฑ๋ฅ์ด ์ ํ๋๋ค.
๋ณธ ์ฐ๊ตฌ์์ ์ ์ํ ๋ชจ๋ธ ๊ตฌ์กฐ

Vision Encoder ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ก๋ถํฐ ํน์ง ์ถ์ถ
Visual Abstractor ๋ฐฐ๊ฒฝ, ๋
ธ์ด์ฆ, ์ ์ฌํ ํจ์น ๋ฑ ๋ถํ์ํ ์ ๋ณด๋ฅผ ์ ๊ฑฐํ์ฌ ์ด๋ฏธ์ง์ ํน์ง ๋ฒกํฐ ํฌ๊ธฐ ์์ถ
Text Embedding Vision Encoder์์ ์์ฑ๋ ์ด๋ฏธ์ง์ text ์ฆ, label๊ณผ ๊ฒฐํฉ
Language Decoder GPT, LLaMA์ ๊ฐ์ LLM์ ํจ๊ป ์
๋ ฅ
Modality-Adaptive Module
๋ชจ๋ ๋ด์์ Sinusoidal Encoding ๋ฐฉ์์ ์ฌ์ฉํ Positional Encoding ํ Self-Attention ์ฐ์ฐ์ ์ํํ๋ค. ์ฆ, LLM์ Decoder์ ๊ฐ๋ค.
์ด๋ฏธ์ง, ํ
์คํธ ๋ฐ์ดํฐ์ ๋ํด ๊ฐ๋ณ์ ์ผ๋ก ์ ํ ์ฐ์ฐ ํ Layer Normalization์ ์ ์ฉํ๋ค.
๊ฐ๋ณ์ ์ผ๋ก ๊ณ์ฐํ ๋ ๊ฐ์ modality์ ๋ํ ๊ฒฐ๊ณผ๊ฐ์ ํฉํ์ฌ Query, Key, Value๋ฅผ ์์ฑํ๊ณ Attention Score๋ฅผ ๊ณ์ฐํ๋ค.
Softmax, FFNN์ ๊ณผ์ ์ Transformer์ ๋์ผํ๋ค.
๋ modality๊ฐ ๋์ผํ ์์ฉ ์์ญ์ผ๋ก projection๋์์ง๋ง, ๊ฐ๋ณ์ ์ผ๋ก ์ฐ์ฐํ๋ ๊ณผ์ ์ ํตํด ์๋ก ๊ฐ์ญ๋์ง ์๊ณ ๊ณ ์ ์ ํน์ง์ ์ ์งํ ์ ์๋ค.
๋ณธ ์ฐ๊ตฌ์์ ์ ์ํ ๋ชจ๋ธ์ ํ์ต ๋ฐฉ๋ฒ
Pre-Training
Pre-trained Language Decoder๋ฅผ freezeํ๊ณ Vision Encoder, Visual Abstractor, Text Embedding ๋ถ๋ถ์ ํ์ตํ๋ค.
LLM ์ชฝ์ freezeํ๊ธฐ ๋๋ฌธ์ Vision Task๋ฅผ ์ํํ๋ ๋ถ๋ถ์ด Language Model์ ์ ์ํ๋ ๋จ๊ณ๋ก ๋ณผ ์ ์๋ค.
์ด๋, Vision task๋ฅผ ์ํํ๋ ๋ชจ๋ธ์ Pre-trained Vision Encoder๋ฅผ ์ฌ์ฉํด๋ ๋๋ค.
Instruction Tuning
Language Decoder ๋ํ ํ์ต ๊ฐ๋ฅํ๊ฒ ๋ง๋ ํ ์ ๋ถ Instruction Tuning ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ Fine-Tuning์ ์ํํ๋ค.
๊ฒฐ๊ณผ
description, question and answering ๋ฑ ๋ค์ํ vision-lanauge ๋ถ์ผ์์ SOTA๋ฅผ ๋ฌ์ฑํ๋ค.
์คํ ๊ณผ์ , ์คํ ๊ฒฐ๊ณผ ๋ถ์์ ์์ง ๋ชป ๋ด ใ
ใ