오늘 리뷰할 논문은 multimodal survey 논문이다. multimodal approach에서 유명한 4가지 방식을 소개하는 듯하다.
Self supervised unimodal label prediction and Multi-task for better representation 부분은 뭔 소린지 이해를 못했다.
아래 포스트를 먼저 보면 도움이 될 것이다.
self-supervised learning의 일반적인 기술은 input의 observed/unhidden part를 보고 input의 unobserved/hidden part를 예측하는 것이다. (NLP에서 문장 일부를 가리고 그 단어를 맞추는 것처럼)
논문은 4가지 best self supervised learning approaches를 소개한다.
주요 아이디어는 Gu et al. [2018]이 제안했으며 global semantic level에서 conventional cross-modal feature embedding에 추가로 두 generative models, image-to-text와 text-to-image,에 기반한 additional cross-modal feature embedding at the local level를 도입하는 것이다. look, imagine, match의 세 단계를 가진다.
주요 아이디어는 Khare et al. [2021]가 제안했으며 self supervised fashion으로 cross-modal transformer을 pretrain하고 emotion recognition을 위한 transformer을 finetune했다.
개별 modalities에 대해 self-attention based transformer encoder를 사용하고 각각의 uni-modal transformer encoder outputs을 cross-modal transformer로 조합해 emotion recognition을 위한 multi-modal representation을 배운다.
Pham et al. [2019]은 modalities 간 translating을 통해 robust joint representations을 학습하는 방법을 제안한다. 이 방법은 source에서 target modality로의 변환이 오직 source modality만을 input으로 사용하고도 joint representations를 배울 수 있다는 통찰에 기반한다. joint representation이 모든 modality로부터 최대 정보를 가지게 하기 위해 cycle consistency loss를 사용한다. test time에는 source modality 데이터만 있으면 된다.
source modality에서 target modality로 translation하는 중 intermediate representation가 두 modalities 간 joint information을 포착한다는 통찰에 기반한다. 원본 논문은 source modality와 multiple target modalities 간 joint representation을 배우기 위해 hierarchical setting을 제안하기도 한다.
Unimodal Label Generation Module (ULGM)은 multimodal annotations과 modality representations에 기반해 uni-modal supervision values를 생성한다.