# Multimodal

16개의 포스트
post-thumbnail

LAION-400M 데이터셋 다운받기

딥러닝 학습을 위해서는 막대한 양의 데이터셋이 필요합니다.LAION-400M은 무료 공개된 대규모 데이터셋으로,높은 퀄리티의 image-text pair 데이터를 제공하고 있습니다.Multi modal 인식을 위한 모델 학습 시 400M 개 정도의 데이터를 유용하게 사

2022년 5월 17일
·
0개의 댓글
·

9. Multi-modal Learning

사람이 여러 개의 감각기관을 활용하여 문제를 해결하듯이 딥러닝에도 이를 적용해보자.한 type의 데이터가 아닌 다른 특성을 갖는 데이터 type들을 같이 사용하는 활용하는 학습법 e.g.) Text , audio data 각각의 데이터들은 서로 다른 타입으로 자료구

2022년 5월 13일
·
0개의 댓글
·
post-thumbnail

Automated Generation of Accurate & Fluent Medical X-ray Reports Paper Review

JRC 2022 Paper Review, 22/03/18 Seongyun, Leeimage-based captioiningperform reasonably well in addressing the language fluency aspectbut, less satisfa

2022년 3월 15일
·
0개의 댓글
·
post-thumbnail

TCL Paper Review

visual-language pretraining은 대부분 image-text alignment를 contrastive loss를 통해 진행되었다. alignment하면서 생기는 이득은 image와 그에 매칭되는 text들간의 상호간의 정보 (Mutual Informa

2022년 2월 27일
·
0개의 댓글
·
post-thumbnail

OFA Paper Review

복잡한 task/modality-specific customization 없이 multimodal pretraining을 위한 단일화된 패러다임을 제안한다. OFA는 unified multimodal pretrained model인데, 많은 modality와 task를

2022년 2월 22일
·
0개의 댓글
·
post-thumbnail

ALBEF Paper Review

transformer 기반의 multimodal encoder는 model이 visual, text tokens을 함께 학습하도록 한다. visual, word tokens들이 unaligned되어있기 때문에 multimodal encoder가 image-text in

2022년 2월 21일
·
0개의 댓글
·
post-thumbnail

BLIP Paper Review

Vision-Language Pre-training은 많은 V-L task을 발전시켰다. 최근 V-L 모델들은 웹상에 존재하는 noisy하고 거대한 데이터로 학습을 진행하였는데, 이것은 suboptimal하다. 본 논문은 nosiy web data를 caption을 b

2022년 2월 20일
·
0개의 댓글
·
post-thumbnail

ALIGN Paper Review

Summary pre-trained model에는 많은 데이터를 필요로 한다. 이 과정에서, costly한 annotation 과정이 필요한데, 이는 필연적으로 학습에 사용되는 데이터셋의 크기를 줄인다. 본 논문에서는 별도의 후처리 없이 noisy한 1billion

2022년 2월 16일
·
0개의 댓글
·
post-thumbnail

VirTex Paper Review

기존에는 imagenet과 같은 supervised image dataset을 사용해서 model을 학습하였다. 이러한 방법은 다양한 vision task에서 좋은 성능을 보였지만, 인간이 수동으로 annotation을 만들어줘야 한다는 점에서 scalability가

2022년 2월 15일
·
0개의 댓글
·
post-thumbnail

CoOp Paper Review

NLP에서 성능 향상에 도움이 되는 prompt learning을 다양한 vision-language task를 수행하는 CLIP-like model에 도입하였다. CoOp은 pre-trained 된 parameter는 고정시킨 채로, prompt의 context wo

2022년 2월 9일
·
0개의 댓글
·
post-thumbnail

ClipCap Paper Review

vision-language model인 clip과 Language model인 GPT-2를 활용하여 적은 cost, 빠른 training으로 image captioning task에서 SOTA model과 비슷한 성능을 내었다. 다음과 같은 과정을 거친다.우선 CLI

2022년 2월 7일
·
0개의 댓글
·
post-thumbnail

ViLT Paper Review

기존의 VLP model들은 대부분 visual feature extraction을 하기 위해, CNN architecture나 region supervision (object detector)를 사용했다. 본 논문에서는 image를 patch 단위로 자르고, ViT를

2022년 2월 5일
·
0개의 댓글
·
post-thumbnail

Text-To-Image Tutorial (CVPR2020)

Text-to-Image Tutorial (CVPR2020)

2022년 1월 30일
·
0개의 댓글
·
post-thumbnail

Oscar Paper Review

Oscar Paper Review - ECCV 2020

2022년 1월 30일
·
0개의 댓글
·
post-thumbnail

MMCF : Multimodal Collaborative Filtering for Automatic Playlist Continuation[.,2018]

Introduction 온라인 음원 스트리밍 서비스에 대한 관심이 점점 증가함에 따라, automatic playlist continuation 연구가 진행중에 있습니다. Automatic playlist continuation? Automatic playlist

2021년 12월 27일
·
0개의 댓글
·

[논문리뷰] MAST: Multimodal Abstractive Summarization with Trimodal Hierarchical Attention

제목 및 저자 Abstract 본 논문은 text, audio, video의 세 가지 모달리티로부터 정보를 활용하는 Multimodal Abstactive Text Summarization을 위한 새로운 모델 MAST를 소개한다. Multimodal Abstactive

2021년 12월 17일
·
0개의 댓글
·