
본 포스팅은 CMU Multimodal Machine Learning, Fall 2023 강의를 듣고 정리한 내용입니다. 본 강의는 위 링크에서 찾아볼 수 있습니다. 정리한 내용은 혼자서 이해한 내용을 바탕으로 작성한 내용으로 100% 정확하지 않습니다.

Modality는 어떤 것이 표현되거나 인식되는 방식을 의미한다.
multimodal은 사전적 정의로는 multiple modalities를 뜻하지만, CS적으로 풀어서 정의하면
Multimodal is the scientific study of heterogeneous and interconnected data
Heterogeneous modalities는 다른 modalities에서의 정보 표현은 서로 다른 qualities, structures, representations을 보인다는 것을 의미한다.
어떻게보면 당연한 말이다. 같은 장면을 보고 찍은 사진과 그 장면을 표현하는 말은 퀄리티, 구조, 표현이 다르기 때문이다.
예를 들어서 Images from 2 camera 를 생각해보자, 그러면 카메라 기종에 따라 다른 퀄리티를 보일 것이다. 그러나 카메라 기종이 다르다고 하더라도 그 퀄리티의 차이는 크지 않고 비슷할 가능성이 크다. 비슷한 퀄리티를 가질 경우 Heterogeneous라기 보다는 Homogeneous에 가깝다.
또 다른 예시로는 Language와 vision을 들 수 있다.
interconnected 측면에서 살펴볼텐데,
interconnected는 Connected + Interacting으로 구성된 단어이다.

Connected : 관련된 Modalities간 공유되는 information이라 볼 수 있고, 연결성에 관한 몇 가지 개념들을 생각해볼 수 있겠다. 이 안에서는 modality끼리의 유니크한 영역을 생각해볼 수 있고, 공유되는 부분이 많으면 강하게 연결되어 있다는 개념도 생각해볼 수 있다.

각 modality에 영향을 미치는 process이며 새로운 반응을 생성한다는 의미에서의 interacting이다. 이 안에서는 각 modality가 어떤 형태였는지에 따라서, Equivalence, Enhancement, Independence, Dominance, Modulation, Emergence 등으로 interaction responses의 타입을 나눌 수 있겠다.
이러한 개념들을 다루는 것이 multimodal 이라고 한다.
Multimodal ML은 multiple modality data를 사용해서 학습하거나 향상 시키는 computer algorithm을 연구하는 분야
Multimodal AI 는 multimodal data를 통해서 understanding, reasoning, planning 등의 다양한 지능 능력을 입증할 수 있는 computer agent를 연구하는 분야
Multimodal AI is a superset of Multimodal ML
Representation : 다른 modalities에서 각각의 elements들의 cross-modal interactions을 반영하는 representation을 학습
즉 각 modality의 element들이 어떤 식으로 연결되어 있고 상호작용하는지를 어떤 방식으로 표현할까

Sub-challenge
Alignment : Identifying and modeling cross-modal connections between all elements of multiple modalities, building from the data structure
modalities간 관련성이나 일관성을 유지하는 것이라고 이해할 수 있는데, 예를들어서 이미지와 설명 텍스트가 있다면 텍스트의 어떤 설명이 이미지의 어떤 부분과 일치하는지를 나타내는 것이다.

Sub-challenge
Reasoning : Combining knowledge, usually through multiple inferential steps,
exploiting multimodal alignment and problem structure
추론 단계에서 어떻게 지식들을 결함할 것인가를 다룬다.
Sub-challenge
Generation : Learning a generative process to produce raw modalities that
reflects cross-modal interactions, structure and coherence
cross-modal interactions을 잘 반영하는 raw modalities를 생성하는 프로세스
Sub-challenge
Transference : Transfer knowledge between modalities, usually to help the target modality which may be noisy or with limited resources
target 모달리티로 지식을 옮기는 것에 대한 것
Sub-challenge
Quantification : Empirical and theoretical study to better understand heterogeneity,
cross-modal interactions and the multimodal learning process
Sub-challenge
앞으로 멀티모달을 공부할 때, 어떤 개념들이 나올지에 대해서 감을 잡을 수 있는 포스트이다. 아직까지는 개념들을 완벽하게 이해할 수 없지만, 포스팅이 쌓이면서 더 잘 이해할 수 있기를 기대한다.