[멀티모달 학습] Introduction

Roh Tae Gyu·2025년 6월 4일

멀티모달 학습

목록 보기
1/2
post-thumbnail

멀티모달이란?


  • Modality : 데이터 표현의 특정 타입 (예 : text, image, audio)
  • Multimodal data : 여러 모달리티 데이터의 결합 (예 : text + image, image + audio)

Multimodal

멀티모달 학습


멀티모달 학습이란 컴퓨터 알고리즘이 멀티모달 데이터를 통해 학습을 하는 과정이다. 위 강의는 딥러닝 기반의 학습을 주로 다룬다.

왜 멀티모달 학습을 해야 할까?


멀티모달 학습이 사람의 sensory 정보와 비슷한 구조이기 때문이다. 멀티모달의 여러 data를 이용해 사람과 비슷하게 문맥을 파악할 수 있다.

예를 들어 위와 같은 text 문장인 'Great, now he is waving back'이 'Great' 단어로 인해 긍정적으로 분류가 되었다고 해보자

그러나 멀티모달 data인 visual, text, audio를 이용해 전체적으로 고려하면 긍정적으로 분류가 되지 않고 오히려 부정적으로 분류가 될 수 있다.

그렇기 때문에 멀티모달 학습을 하는 것이다.

멀티모달 학습의 도전 과제


멀티모달 학습이 좋지만 다양한 도전 과제들이 여전히 남아 있다. 크게 4가지가 있다.

Fusion

Fusion이란 두 가지 modality를 결합하는 과정이다.

예시

  • 자율 주행(visual + sensory data)
    자율주행을 학기 위해서는 컴퓨터 비전을 이용한 visual data와 sensory data를 결합하여 자율주행을 한다.

Translation

Translation이란 modality A를 modality B로 다른 modality로 바꾸는 과정이다.

예시

  • Speech Recognition (Audio → Language)
    사용자의 audio를 입력받아 text data로 변환하는 작업이다.
  • Translation - Image Captioning (Visual → Language)
    사진을 입력 data로 받으면 어떤 사진인지 text data로 caption을 작성하는 작업이다.
  • Translation - Video Generation (Language → Visual)
    최근에 나온 구글의 veo3와 같이 text data를 입력하면 동영상을 만들어주는 과정이다.

Alignment

Alignment이란 language data와 visual data의 정렬 관계를 맞추는 과정이다.

예시

  • Alignment - Moment Retrieval (Language ↔ Visual)
    text data를 넣으면 긴 동영상에서 해당 text data와 일치하는 장면을 검색해 찾아주는 과정이다.
  • Alignment - Sound Source Localization (Visual ↔ Audio)
    원하는 sound를 attention 시킬 수 있는 과정이다.

Co-Learning

Co-Learning이란 2가지 modality가 있을 때 2가지 modality의 정보를 활용해서 1가지 modality의 feature extraction을 개선하는 과정이다.

  • Co-Learning - Audio-Visual Representation (Audio ↔ Visual)
    audio만 듣고 어떤 장면일지 예측하는 작업이다.
  • Co-Learning - Lip Reading (Audio ↔ Visual)
    모델 학습은 audio modlity를 이용하지만 visual modality를 활용해서 사람의 입 모양으로만 audio를 예측하는 작업이다.

📚 참고 및 출처

본 게시물은 성균관대학교 멀티모달학습 수업에서 이상민 교수님께서 제공하신 강의 자료 및 수업 내용을 바탕으로 작성되었습니다.
해당 내용은 교육 목적의 개인 정리용이며, 무단 복제 및 상업적 이용을 금합니다.

일부 이미지 및 설명은 교수님의 강의 슬라이드(2025년도/1학기, 멀티모달 학습)에서 인용되었습니다.

profile
돌아보니 꽃길이다

0개의 댓글