Multimodal Machine Learning_(1)

박찬영·2024년 4월 24일

Multimodal ML

목록 보기

2/4

Multimodal Machine Learning

본 포스팅은 CMU Multimodal Machine Learning, Fall 2023 강의를 듣고 정리한 내용입니다. 본 강의는 위 링크에서 찾아볼 수 있습니다. 정리한 내용은 혼자서 이해한 내용을 바탕으로 작성한 내용으로 100% 정확하지 않습니다.

개요

이번 포스팅에서는 간단하게 multimodal research task들은 어떤 것들이 있는지에 대해서 키워드 중심으로 작성하려고 한다.

Multimodal Research Task

Prior research of multimodal

Behavioral era(1970-80)
주로 인간 행동을 모델링하기 위한 연구
단순 센서 데이터 분석 또는 패턴 인식에 초점
Computational era(1980-90)
음성과 이미지 처리를 위한 기초적인 신경망 아키텍처들이 제안
Interaction era(2000-10)
사람과 컴퓨터의 상호 작용에 중점
Deep learning era(2010-)
대규모 데이터 셋, 더 나은 컴퓨팅 자원으로 신경망 학습 중점
다양한 모달리티간 통합 처리

Representation learning(deep learning)

(2015년도)

Image captioning
Video captioning, "grounding"

(2016년도)

Visual QA(image based)
Video QA, Referring expression

(2017년도)

Multimodal dialogue
Large scale video event retrieval

(2018년도)

Language vision and Navigation

(2019년도)

Self driving multimodal navigation
...

이렇게 대략적으로 연구 주제의 흐름을 정리해볼 수 있는데, 더 많은 연구들이 있다고 한다.

Categorization of 7 big task

Multimodal task를 7개의 큰 task로 나누어서 카테고리로 만들면 다음과 같이 정리할 수 있다.

A. Affect Recognition

사람들의 감정, 성격 등을 이해하는 것에 중점을 둔다.

Emotion
Personalities
Sentiment
Dataset
- AFEW
- AVEC
- IEMOCAP

B. Media description

이미지나 비디오에 대한 자동 캡션과 같은 작업을 다룬다.

Image, Video captioning
Dataset
- MSCOCO

C. Multimodal QA

이미지나 비디오에 기반한 질문에 대한 답변을 생성하는 것을 다룬다.

Image, Video QA
Visual reasoning
Dataset
- VQA
- DAQUAR

언어로 안내된 내비게이션이나 자율주행과 같은 주제를 다룬다.

Language guided navigation
Autonumous driving
Dataset
- Room2Room

E. Multimodal dialog

이미지나 비디오와 관련된 대화를 다룬다.

Grounded dialog
Dataset
- MMD

F. Event recognition

행동 인식이나 시각적 이벤트 세분화와 같은 작업을 다룬다.

Action recognition
segmentation
Dataset
- WHATS COOKING
- YOU-COOK
- MED

G. Multimedia information retrieval

콘텐츠 기반의 검색이나 크로스 미디어 검색과 같은 작업을 다룬다.

Conetent based / Cross-media
Dataset
- NUS-WIDE
- YAHOO FLICKER

dataset은 더 많은 데이터셋들이 있으며, 언급한 데이터셋은 가장 잘 알려진 데이터셋이다.

주요 Task들을 나누어 봤는데, 해당 task들을 보고 세부적으로 공부하고 싶은 분야를 살펴보는 것도 좋을 것 같다.

박찬영

안녕하세요 박찬영입니다.

이전 포스트

Multimodal Machine Learning_(0)

다음 포스트