Multimodal Machine Learning_(1)

박찬영·2024년 4월 24일

Multimodal ML

목록 보기
2/4
post-thumbnail

Multimodal Machine Learning

본 포스팅은 CMU Multimodal Machine Learning, Fall 2023 강의를 듣고 정리한 내용입니다. 본 강의는 위 링크에서 찾아볼 수 있습니다. 정리한 내용은 혼자서 이해한 내용을 바탕으로 작성한 내용으로 100% 정확하지 않습니다.


개요

이번 포스팅에서는 간단하게 multimodal research task들은 어떤 것들이 있는지에 대해서 키워드 중심으로 작성하려고 한다.

Multimodal Research Task

Prior research of multimodal

  • Behavioral era(1970-80)
    주로 인간 행동을 모델링하기 위한 연구
    단순 센서 데이터 분석 또는 패턴 인식에 초점
  • Computational era(1980-90)
    음성과 이미지 처리를 위한 기초적인 신경망 아키텍처들이 제안
  • Interaction era(2000-10)
    사람과 컴퓨터의 상호 작용에 중점
  • Deep learning era(2010-)
    대규모 데이터 셋, 더 나은 컴퓨팅 자원으로 신경망 학습 중점
    다양한 모달리티간 통합 처리

Representation learning(deep learning)

(2015년도)

  • Image captioning
  • Video captioning, "grounding"

(2016년도)

  • Visual QA(image based)
  • Video QA, Referring expression

(2017년도)

  • Multimodal dialogue
  • Large scale video event retrieval

(2018년도)

  • Language vision and Navigation

(2019년도)

  • Self driving multimodal navigation
    ...

이렇게 대략적으로 연구 주제의 흐름을 정리해볼 수 있는데, 더 많은 연구들이 있다고 한다.

Categorization of 7 big task

Multimodal task를 7개의 큰 task로 나누어서 카테고리로 만들면 다음과 같이 정리할 수 있다.

A. Affect Recognition

사람들의 감정, 성격 등을 이해하는 것에 중점을 둔다.

  • Emotion

  • Personalities

  • Sentiment

  • Dataset

    • AFEW
    • AVEC
    • IEMOCAP

B. Media description

이미지나 비디오에 대한 자동 캡션과 같은 작업을 다룬다.

  • Image, Video captioning

  • Dataset

    • MSCOCO

C. Multimodal QA

이미지나 비디오에 기반한 질문에 대한 답변을 생성하는 것을 다룬다.

  • Image, Video QA

  • Visual reasoning

  • Dataset

    • VQA
    • DAQUAR

D. Multimodal Navigation

언어로 안내된 내비게이션이나 자율주행과 같은 주제를 다룬다.

  • Language guided navigation

  • Autonumous driving

  • Dataset

    • Room2Room

E. Multimodal dialog

이미지나 비디오와 관련된 대화를 다룬다.

  • Grounded dialog

  • Dataset

    • MMD

F. Event recognition

행동 인식이나 시각적 이벤트 세분화와 같은 작업을 다룬다.

  • Action recognition

  • segmentation

  • Dataset

    • WHATS COOKING
    • YOU-COOK
    • MED

G. Multimedia information retrieval

콘텐츠 기반의 검색이나 크로스 미디어 검색과 같은 작업을 다룬다.

  • Conetent based / Cross-media

  • Dataset

    • NUS-WIDE
    • YAHOO FLICKER

dataset은 더 많은 데이터셋들이 있으며, 언급한 데이터셋은 가장 잘 알려진 데이터셋이다.

주요 Task들을 나누어 봤는데, 해당 task들을 보고 세부적으로 공부하고 싶은 분야를 살펴보는 것도 좋을 것 같다.

profile
안녕하세요 박찬영입니다.

0개의 댓글