
본 포스팅은 CMU Multimodal Machine Learning, Fall 2023 강의를 듣고 정리한 내용입니다. 본 강의는 위 링크에서 찾아볼 수 있습니다. 정리한 내용은 혼자서 이해한 내용을 바탕으로 작성한 내용으로 100% 정확하지 않습니다.
이번 포스팅에서는 간단하게 multimodal research task들은 어떤 것들이 있는지에 대해서 키워드 중심으로 작성하려고 한다.
(2015년도)
(2016년도)
(2017년도)
(2018년도)
(2019년도)
이렇게 대략적으로 연구 주제의 흐름을 정리해볼 수 있는데, 더 많은 연구들이 있다고 한다.
Multimodal task를 7개의 큰 task로 나누어서 카테고리로 만들면 다음과 같이 정리할 수 있다.
사람들의 감정, 성격 등을 이해하는 것에 중점을 둔다.
Emotion
Personalities
Sentiment
Dataset
이미지나 비디오에 대한 자동 캡션과 같은 작업을 다룬다.
Image, Video captioning
Dataset
이미지나 비디오에 기반한 질문에 대한 답변을 생성하는 것을 다룬다.
Image, Video QA
Visual reasoning
Dataset
언어로 안내된 내비게이션이나 자율주행과 같은 주제를 다룬다.
Language guided navigation
Autonumous driving
Dataset
이미지나 비디오와 관련된 대화를 다룬다.
Grounded dialog
Dataset
행동 인식이나 시각적 이벤트 세분화와 같은 작업을 다룬다.
Action recognition
segmentation
Dataset
콘텐츠 기반의 검색이나 크로스 미디어 검색과 같은 작업을 다룬다.
Conetent based / Cross-media
Dataset
dataset은 더 많은 데이터셋들이 있으며, 언급한 데이터셋은 가장 잘 알려진 데이터셋이다.
주요 Task들을 나누어 봤는데, 해당 task들을 보고 세부적으로 공부하고 싶은 분야를 살펴보는 것도 좋을 것 같다.