💡Multi Modal 소개

oceann·2024년 8월 28일

💡관심사

목록 보기

2/3

Multi Modal이란?

Modality란 ’양식’, ‘양상’이라는 뜻으로, 보통 어떤 형태로 나타나는 현상이나 그것을 받아들이는 방식을 말한다.
AI가 등장하기 전에는 사용자에게 보이거나 입력하는 방식 등을 하나로 단순화하여 구현한 것을 Uni Modality라고 했으며, 마우스와 키보드, 화면과 음성 등 여러 채널을 이용하면 Multi Modality라고 했다.
AI가 등장한 이후에는 사람이 어떤 현상을 인식하는 것과 같이 시각, 청각 등 다양한 자료를 사용하여 학습 및 사고하는 방식을 Multi Modal AI라고 부른다.

등장 배경
High-Level, Low-Level에 대해서는 다들 들어봤을 것이다. 아무리 High-Level이라도 직접 컴퓨터를 배워야 하고, 이를 다시 컴퓨터가 이해할 수 있는 형태로 변형해야 한다. 따라서 보다 쉽게 컴퓨터를 사용하고자 즉, 컴퓨터가 인간의 언어를 이해하게 하고자 NLP가 등장했다. 결과적으로 컴퓨터가 기본적인 명제와 추론을 할 수 있게 되었다.
하지만 사람이 정보를 통해 지식을 습득하고 소통하는 과정에는 자연어만 관여하는 것이 아니다. 시각, 청각, 후각, 촉각, 미각 등 다양한 감각을 사용한다. 따라서 컴퓨터가 인간의 의사소통 방식을 이해하게 하고자 Multi Modal이 등장했다. 예를 들면, Vision Task는 인간의 시각을 모방하고, 신호 및 주파수 분석은 청각을, NLP는 자연어를 모방한 것이다.

DALL-E
OpenAI는 텍스트만으로는 정보가 실제로 어떤 형태로 존재하는지 알 수 없기 때문에 Multi Modal을 활용해서 DALL-E를 개발했다고 한다.
사람이 입력한 문장에 대해서 그림과 사진으로 출력하여 모델이 텍스트의 내용을 어떻게 이해하고 있는지를 시각화해준다.

예시

DALL-E 외
GPT-4V 이미지 분석, 텍스트로 설명, 주어진 이미지에 시각적 포인터 추가, 비디오 프레임 분석 등
LG의 엑사원 텍스트를 이미지로 표현, 이미지를 텍스트로 설명하는 양방향(현재 GPT도 가능)
Stable Diffusion 텍스트 기반 이미지 생성 및 편집 모델

네이버의 스마트 렌즈

출처
삼성 SDS 인사이트 리포트
사진: 네이버 제공

1. 차량 내 인터페이스 개선을 위한 멀티모달 데이터
자율주행, 인포테인먼트 AI 서비스의 개발 및 고도화를 위한 차량 내 탑승자 상황 인식 영상 데이터이다.

데이터 구조
차량 내 인터페이스 조작을 위한 제스터 촬영 영상
영상에서 추출한 프레임 이미지
영상에서 추출한 음성

여기서 인포테인먼트를 잠깐 설명하고 가자면, info와 entertainment의 합성어이다. 정보를 습득하여 사용자에게 제공하는 과정에서 사용자에게 재미 요소를 더해주는 것이다.
개인적으로 현재 필요한 것들은 많이 개발이 되었기에 앞으로는 즐거운 것들이 주류를 차지할 것이라고 생각하는 나는 인포테인먼트에 또한 관심이 간다.

2. 정신건강진단 및 예측을 위한 멀티모달 데이터
환자군과 건강대조군을 대상으로 임상 의료 데이터, 수면 데이터, 음성, 라이프로그 데이터 획득을 통해 최신 인공지능 학습 기술 적용이 가능한 데이터를 구축한 것이다.
정신 질환은 감기에 걸려 몸이 아프듯이 마음이, 머리가 잠시 아픈 것일 수도 있음에도 불구하고 아직 사회적인 인식이 부정적이다. 정도와 종류에 따라 다르겠지만, 조기에 빠른 진단을 통해 치료가 필요한 상황을 위해 누구나 편리하게 사용 가능한 AI 상담사에 대한 아이디어를 가지고 있었는데 이렇게 데이터셋이 나와주니 감사할 따름이다!

SKT AI Fellowship - 정신 건강 진단

가장 처음 Multi Modal에 대해서 알게 된 계기이다. 학기 중(24년 1학기)에 해볼 만한 대외활동이 없을까 싶어 찾아봤다. 석박사까지도 모집 대상이고 학기 중이었어서 지원은 못했지만 알아보며 포스팅까지 할 수 있게 된 계기가 되었다.
정신 건강 진단 프로젝트는 실제 상담을 목표로 하기에 앞서 설명한 Vision과 NLP를 결합한 것이 아닌, 음성 신호와 NLP를 결합한 프로젝트이다.

참고 링크
Fellowship 6기 연구 과제
Multi-modal 감정 인식 AI 모델 개발 - 연구과정(2)

간단히 내용 정리를 하자면 아래와 같다. 자세한 내용은 위 링크를 타고 들어가보세요!

연구 목적
스트레스(우울) 혹은 감정 상태(기쁨, 슬픔, 분노, 혐오, 불안 등)를 음성과 언어(생체신호) 값을 이용하여 확률로 보여주는 것이 목적

연구 과정 예시
데이터: AI Hub의 Multi Modal(영상, 음성, 텍스트) 데이터셋을 활용하여 Negative, Neutral, Positive의 세 가지 클래스로 감정 인식 분류 수행
NLP: Rule-Based Approach로 전처리 이후 Labeling하는 방식 사용
Feature Extraction: 음성 데이터 → FFT 적용 후 주파수 분석을 통한 억양 분석

논문 링크
github 링크
리뷰 링크
인용 횟수가 무려 143회...

citation
Ye, Qinghao, et al. "mplug-owl2: Revolutionizing multi-modal large language model with modality collaboration." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

기존의 MLLM 구축 방법
1. Vision 데이터에서 추출한 특징을 pre-trained LLM에 align하는 방식으로 단순하지만, 이미지에서 추출한 특징 벡터를 LLM에 끼워넣을 수 있도록 데이터의 형태만 맞추는 것이기 때문에 서로 다른 modality의 협업이 제한된다.
2. Vision Model의 출력 결과인 text embedding을 pre-trained LLM의 최종 선형 레이어에 얹는 방식 또한 단순한 방식이지만, 이미지로부터 추출한 특징 또는 text embedding만을 사용하기 때문에 이미지 데이터의 고유한 특징을 놓칠 수 있다.
3. Instruction Tuning과 같은 Fine-Tuning 기법을 사용하는 방식은 Multi Modal task에서 중요한 성능인 특징 추출 성능은 향상될지라도, text generation task의 성능은 저하될 우려가 있어 지양한다.
4. Vision Model을 freeze한 후 LLM과 결합하여 fine-tuning을 수행할 경우 복잡한 이미지의 high-level feature extraction(객체 간 관계 등) 성능이 제한된다.

본 연구에서 제안한 모델 구조

Vision Encoder 이미지 데이터로부터 특징 추출
Visual Abstractor 배경, 노이즈, 유사한 패치 등 불필요한 정보를 제거하여 이미지의 특징 벡터 크기 압축
Text Embedding Vision Encoder에서 생성된 이미지의 text 즉, label과 결합
Language Decoder GPT, LLaMA와 같은 LLM에 함께 입력

Modality-Adaptive Module
모듈 내에서 Sinusoidal Encoding 방식을 사용한 Positional Encoding 후 Self-Attention 연산을 수행한다. 즉, LLM의 Decoder와 같다.
이미지, 텍스트 데이터에 대해 개별적으로 선형 연산 후 Layer Normalization을 적용한다.
개별적으로 계산한 두 개의 modality에 대한 결과값을 합하여 Query, Key, Value를 생성하고 Attention Score를 계산한다.
Softmax, FFNN의 과정은 Transformer와 동일하다.
두 modality가 동일한 수용 영역으로 projection되었지만, 개별적으로 연산하는 과정을 통해 서로 간섭되지 않고 고유의 특징을 유지할 수 있다.

본 연구에서 제안한 모델의 학습 방법
Pre-Training
Pre-trained Language Decoder를 freeze하고 Vision Encoder, Visual Abstractor, Text Embedding 부분을 학습한다.
LLM 쪽은 freeze하기 때문에 Vision Task를 수행하는 부분이 Language Model에 적응하는 단계로 볼 수 있다.
이때, Vision task를 수행하는 모델은 Pre-trained Vision Encoder를 사용해도 된다.
Instruction Tuning
Language Decoder 또한 학습 가능하게 만든 후 전부 Instruction Tuning 기법을 적용하여 Fine-Tuning을 수행한다.

결과
description, question and answering 등 다양한 vision-lanauge 분야에서 SOTA를 달성했다.
실험 과정, 실험 결과 분석은 아직 못 봄 ㅠㅠ

그 외에도…

Kakao Brain의 허니비
학습 코드 공개: https://github.com/khanrc/honeybee

oceann

🌈🌼🌸☀️

이전 포스트

💡작물 시가 예측 모델

다음 포스트

💡Multi Modal 소개

💡관심사

Multi Modal이란?

예시

SKT AI Fellowship - 정신 건강 진단

그 외에도…

💡작물 시가 예측 모델

💡The AI Scientist

0개의 댓글

💡Multi Modal 소개

💡관심사

Multi Modal이란?

예시

Multi Modal Dataset - AI Hub

Multi Modal 활용

SKT AI Fellowship - 정신 건강 진단

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

그 외에도…

💡작물 시가 예측 모델

💡The AI Scientist

0개의 댓글