[논문리뷰] Self-Supervised Multi-Modal Versatile Networks - 2020

안녕하쌉싸리와요·2023년 8월 21일

Introduction

MMV: MultiModal Versatile Networks

Shared / Disjoint

FAC (Fine and Coarse spaces)

Fine to coarce projection(gva->vat)을 통해서 fine-grained space(vision-audio embedding space) vector 를 더 낮은 차원인 coarse-grained space(text embedding space)로 임베딩한다.

Multimodal Contrasitive loss

contrasitive learning? <- click!

안녕하쌉싸리와요

무니의 성장스토리 😣

이전 포스트

[ComputerVision] Object Detection 이란? with 1-stage, 2-stage , AP

다음 포스트

[논문리뷰] Self-Supervised Multi-Modal Versatile Networks - 2020

Introduction

MMV: MultiModal Versatile Networks

Shared / Disjoint

FAC (Fine and Coarse spaces)

Multimodal Contrasitive loss

[ComputerVision] Object Detection 이란? with 1-stage, 2-stage , AP

[논문리뷰]Fast R-CNN - 2015

0개의 댓글