# Multimodal

LAION-400M 데이터셋 다운받기
딥러닝 학습을 위해서는 막대한 양의 데이터셋이 필요합니다.LAION-400M은 무료 공개된 대규모 데이터셋으로,높은 퀄리티의 image-text pair 데이터를 제공하고 있습니다.Multi modal 인식을 위한 모델 학습 시 400M 개 정도의 데이터를 유용하게 사
9. Multi-modal Learning
사람이 여러 개의 감각기관을 활용하여 문제를 해결하듯이 딥러닝에도 이를 적용해보자.한 type의 데이터가 아닌 다른 특성을 갖는 데이터 type들을 같이 사용하는 활용하는 학습법 e.g.) Text , audio data 각각의 데이터들은 서로 다른 타입으로 자료구

Automated Generation of Accurate & Fluent Medical X-ray Reports Paper Review
JRC 2022 Paper Review, 22/03/18 Seongyun, Leeimage-based captioiningperform reasonably well in addressing the language fluency aspectbut, less satisfa

TCL Paper Review
visual-language pretraining은 대부분 image-text alignment를 contrastive loss를 통해 진행되었다. alignment하면서 생기는 이득은 image와 그에 매칭되는 text들간의 상호간의 정보 (Mutual Informa

OFA Paper Review
복잡한 task/modality-specific customization 없이 multimodal pretraining을 위한 단일화된 패러다임을 제안한다. OFA는 unified multimodal pretrained model인데, 많은 modality와 task를

ALBEF Paper Review
transformer 기반의 multimodal encoder는 model이 visual, text tokens을 함께 학습하도록 한다. visual, word tokens들이 unaligned되어있기 때문에 multimodal encoder가 image-text in

BLIP Paper Review
Vision-Language Pre-training은 많은 V-L task을 발전시켰다. 최근 V-L 모델들은 웹상에 존재하는 noisy하고 거대한 데이터로 학습을 진행하였는데, 이것은 suboptimal하다. 본 논문은 nosiy web data를 caption을 b

ALIGN Paper Review
Summary pre-trained model에는 많은 데이터를 필요로 한다. 이 과정에서, costly한 annotation 과정이 필요한데, 이는 필연적으로 학습에 사용되는 데이터셋의 크기를 줄인다. 본 논문에서는 별도의 후처리 없이 noisy한 1billion

VirTex Paper Review
기존에는 imagenet과 같은 supervised image dataset을 사용해서 model을 학습하였다. 이러한 방법은 다양한 vision task에서 좋은 성능을 보였지만, 인간이 수동으로 annotation을 만들어줘야 한다는 점에서 scalability가

CoOp Paper Review
NLP에서 성능 향상에 도움이 되는 prompt learning을 다양한 vision-language task를 수행하는 CLIP-like model에 도입하였다. CoOp은 pre-trained 된 parameter는 고정시킨 채로, prompt의 context wo

ClipCap Paper Review
vision-language model인 clip과 Language model인 GPT-2를 활용하여 적은 cost, 빠른 training으로 image captioning task에서 SOTA model과 비슷한 성능을 내었다. 다음과 같은 과정을 거친다.우선 CLI

ViLT Paper Review
기존의 VLP model들은 대부분 visual feature extraction을 하기 위해, CNN architecture나 region supervision (object detector)를 사용했다. 본 논문에서는 image를 patch 단위로 자르고, ViT를
.png)
MMCF : Multimodal Collaborative Filtering for Automatic Playlist Continuation[.,2018]
Introduction 온라인 음원 스트리밍 서비스에 대한 관심이 점점 증가함에 따라, automatic playlist continuation 연구가 진행중에 있습니다. Automatic playlist continuation? Automatic playlist
[논문리뷰] MAST: Multimodal Abstractive Summarization with Trimodal Hierarchical Attention
제목 및 저자 Abstract 본 논문은 text, audio, video의 세 가지 모달리티로부터 정보를 활용하는 Multimodal Abstactive Text Summarization을 위한 새로운 모델 MAST를 소개한다. Multimodal Abstactive