# Multimodal

50개의 포스트
post-thumbnail

ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic Rules (2023)

Introduction Chart-to-Table task는 chart를 machine이 이해할 수 있는 table로 변환하는 task ChartQA와 Chart-to-Text는 question과 chart summarizing이 필요 최근 연구에서, chart comprehension은 상대적으로 저 평가 되어 있음 현존하는 chart comprehension methods는 2가지 한계 domain knowledge에 의존하는 heuristic rule로 formulate가 어려움 ChartOCR이 정확히 그 예시 특정 Chart에만 적용할 수 있는 모델이 있지만, unkown categorie에는 대응 어려움 따라서 MatCh

2023년 9월 13일
·
0개의 댓글
·
post-thumbnail

Unifying Vision, Text, and Layout for Universal Document Processing (CVPR 2023)

Introduction Document AI는 vision information과 spatial layout을 동시에 포착해야 함 따라서 효율, 효과적인 information extraction은 제목 추출, 공문서 검사, 표 처리, 문서 분류 등 다양한 downstream task을 위해 선행 되어야 함 text와 image 사이의 cross-modal interaction이 타 vision-language domain에 비해 중요 더 나아가 downstream task는 도메인과 패러다임에 대해 매우 다양 DQA, Layout Detection, Classification, information extraction 총 두 가지 challenge How

2023년 9월 5일
·
0개의 댓글
·
post-thumbnail

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking (ACM 2022)

Introduction Document AI는 layout을 parse하고 key information을 extract performant multimodal pre-trained Document AI 모델은 BERT의 MLM을 사용하며, training objective에서 그 차이를 보임 Docformer은 CNN decoder를 통해 image pixel을 reconstruct high-level structure보다 noisy detail을 학습할 우려가 있음 SelfDoc은 국소적 mask

2023년 9월 4일
·
0개의 댓글
·
post-thumbnail

[논문리뷰] Self-Supervised Multi-Modal Versatile Networks - 2020

Introduction MMV: MultiModal Versatile Networks Shared / Disjoint FAC (Fine and Coar

2023년 8월 21일
·
0개의 댓글
·

Multimodal Transport 복합수송

Multimodal 과 CombinedTransport 1. Multimodal 하나의 계약안에 두개 이상의 교통 수단을 이용하여 물건을 수송하는 계약. 운송업체가 국가에서 국가간 해상, 내수로, 항공, 철도 또는 도로운송 중 2개이상의 방법을 복합 사용하여 화물을 이송 시키는 운송. 2. CombinedTransport 100Km 이상일 경우 기차나 해안수송 또는 내륙선박 수송을 이용하고 각 종점에서의 말단 운송은 차량을 이용하는 친환경적인 운송 방법으로 유럽에서 많이 확산되고 있는 운송 방식이다. 세제 감면등의 인센티브가 존재한다.

2023년 7월 22일
·
1개의 댓글
·
post-thumbnail

프롬프트 엔지니어링 결과는 어떻게 평가할까? Text-to-Image의 사례로 알아보기

드디어 DeepLearning.AI의 강의를 정리하고 든 의문 반복적으로 프롬프트를 개선하는 과정은 알겠다. 그런데 어떻게 이 결과물을 평가하지? 이 의문을 Text-to-Image 분야에서 발 빠르게 해결한 논문이 있습니다 (세상엔 부지런하고 실행력 좋은 사람들이 참 많습니다) HCI 분야의 탑 컨퍼런스인 CHI 2022년에 실린 Design Guidelines for Prompt Engineering Text-to-Image Generative Models입니다 논문을 읽기 전에 공유하고 싶은 내용 프롬프트 엔지니어링이란?

2023년 5월 26일
·
0개의 댓글
·
post-thumbnail

2022, AV-HuBERT [ICLR]

Github Papers Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction, in Proc. ICLR 2022 Robust Self-Supervised Audio-Visual Speech Recognition, in Proc. Interspeech 2022 (blog) [Learning Lip-Based Audio-Visual Speaker Embeddings with AV-HuBERT](https://arxiv.org/abs/22

2023년 5월 17일
·
0개의 댓글
·
post-thumbnail

Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training - 논문 정리

지속적으로 neural script knowledge, 그리고 Visual Question-Answer 관련 논문을 읽어서, 이번에는 정말 specific한 domain인 medical domain에서의 Vision-Language multimodal 논문을 읽어보았다. 뭔가, MERLOT RESERVE을 최근에 읽어서인지 모르겠지만, 음성이 포함된 데이터셋을 구축하고, 해당 데이터셋으로 학습하면 성능이 더 좋아질 것 같다! VLU 성능이 더 좋아지지 않을까?! 4 Questions 1. What did the autors try to accomplish? develop a model that can learn multipurpose joint representations of vision and text in medical domain build a model for vision-language understanding and generation-based

2023년 5월 16일
·
0개의 댓글
·
post-thumbnail

MERLOT RESERVE: Neural Script Knowledge through Vision and Language and Sound - 논문 정리

MERLOT RESERVE는 MERLOT 이후에 등장한 neural script knowledge 모델이다. MERLOT은 그래도 이해를 하면서 읽었는데, 이번 논문을 이해하지 못하는 부분이 조금 많았다. 그래도 읽고 이해를 해보려고 노력해봤으니... 정리를 하려고 한다. 정리하면서 조금은 더 많이 이해하게 된 것 같다..! 4 Questions to Answer What did authors try to accomplish? build a model that learns self-supervised representations of videos through all their modalities(audio, subtitle, vision) teaching eachother. What were the key elements of the approach? 1. Contrastive Span Learning enables learning a

2023년 5월 9일
·
0개의 댓글
·
post-thumbnail

MERLOT: Multimodal Neural Script Knowledge Models - 논문 정리 (+BERT 정리)

이번 게시물에서는 유튜브 영상으로 label 없이 multimodal script knowledge를 학습하는 self-supervised model인 MERLOT의 논문을 정리하고자 한다. 4 Questions to Answer What did authors try to accomplish? the authors tried to build a model that has multimodal reasoning capacity beyond static images/literal captions. to do above, MERLOT is trained: a) match individual video frames with contextualized representations of the associated transcripts, and to b) contextualize those frame-level representations over tim

2023년 5월 8일
·
0개의 댓글
·
post-thumbnail

[논문리뷰] Diffusion-Based Scene Graph to Image Generation with Masked Constrastive Pre-Training

Abstract Scene graph와 같이 graph-structured를 input으로 받은 이미지 생성은 이미지의 옵젝트와 옵젝트들의 관계로 그래프에 노드와 연결을 배치한다는 독특한 챌린지가 있다. 가장 많이 사용하는 방법은 scene layouts을 이용하는 것인데, scene image의 coarse 구조를 포착해서 나타내는 image-liked representation 이다. (이미지의 low한 구조를 이미지와 비슷한 형태로 나타내는 방법) Scene layout은 수작업으로 만들어지기 때문에, scene 정렬이 최적화되지 않아 원본 scene과 생성된 scene graph의 사이의 차선의 적합성을 제공한다. 이 문제를 다루기 위해, Scene graph embedding을 이미지의 배열과 직접 최적화하여 학습하는 방법을 제시한다. 특히, 우리는 masked autoencoding loss와 constrastive loss 라는 두가지 손실함수에 의

2023년 5월 7일
·
0개의 댓글
·
post-thumbnail

A Joint Sequence Fusion Model for Video Question Answering and Retrieval - 논문 정리

이번 게시물에서는 어떤 multimodal sequence가 주어졌을 때 의미론적 유사성을 측정할 수 있는 JSFusion이라는 접근법과 관련된 논문을 정리하고자 한다. Abstract 본 논문에서는 두 개의 multimodal sequence 데이터 사이의 의미론적 유사성을 측정할 수 있는 JSFusion(Joint Sequence Fusion)이라는 접근법을 제시한다. 본 논문의 multimodal matching 네트워크는 2개의 주요 요소들을 지니는데, 1) Joint Semantic Tensor 한 쌍의 dense한 sequence data의 표현을 3차원 벡터로 구성한다. 2) Convolutional Hierarchical Decoder 두 sequence modality간의 숨겨져있는 계층적 일치를 찾아 유사성 점수를 계산한다. 두 주요 요소 모두 데이터를 기반으로 잘못 정렬된 것들을 잘라내면서 잘 정렬된 표현 패턴을 학습하는 hierar

2023년 5월 5일
·
0개의 댓글
·
post-thumbnail

TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering - 논문 정리

TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering CMU MMML 강의 수강을 시작하면서 multimodal의 활용 분야들을 알게 되었는데, 이 논문은 여러 분야들 중 Visual Question Answering, 특히 영상에서 VQA를 수행할 때 고려해야하는 새로운 시각을 제안한다. 4 Questions to Answer What did authors try to accomplish? 영상 VQA를 위해 시공간적 추론이 요구되는 task가 포함된 학습 데이터셋 제작(TGIF-QA)하여 시공간적 추론을 할 수 있는 모델 build. What were the key elemen

2023년 5월 4일
·
0개의 댓글
·
post-thumbnail

Code Review : 1st Place Code for AI competition for predicting lymphadenopathy in breast cancer

Competition Competitioni Link Data Link Data Link Data Image Data + Tabular Data Overview ![](https://velog.velcdn.com/images/aerojohn1223/post/

2023년 4월 29일
·
0개의 댓글
·
post-thumbnail

Code Review : Baseline Code for AI competition for predicting lymphadenopathy in breast cancer

Multi-Modal Learning Training the Model with datas of various modality that is collected by 5 senses of human, which are 1) Vision, 2) Text, 3) Speech, 4) Touch, 5) Smell, +) Meta Data. The model is trained by data with different feature dimensions simultaneously. To learn well, the data with different feature dimensions must be integrated well. There are 3 ways of integrating datas o

2023년 4월 29일
·
0개의 댓글
·

CMU MMML - Lecture 1.2 Datasets

Multimodal Reaserch Tasks 1980 ~ 1990 : Audio-visual speech recognition 1990 ~ 2000 : 1) Content-based video retrieval. A lot more videos were available on youtube at this time. 2) Affect and emotion recognition. "Affective Computing" was born. 2000 ~ 2010 : 1) Video event recognition(TrecVid) 2) Multimodal sentiment Analysis 2010 ~ 2015 : Image Captioning. "Language and Vision" research born. 2015 ~ 2016 : 1) Video captioning & "grounding" 2) Visual question answer

2023년 4월 22일
·
2개의 댓글
·
post-thumbnail

[MultiModal] CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment (ICLR 2023)

빠른 요약 🔎 CLIP을 비디오-텍스트 검색 테스크에 활용하기 위한 최적의 방식을 제안하는 논문으로 텍스트는 데이터 품질을 올리고, 비디오는 주요 프레임에 어텐션을 잘 적용하는 문제로 풀어냄 Github: [link] Paper: [link] 연구배경 최근 CLIP과 같은 사전 학습 이미지-텍스트 모델이 이미지-텍스트 테스크에서 좋은 성능을 보임 한편 그동안 잘 훈련된 image representation을 video에 사용하여 이득을 본 사례가 있었음 하지만 아직 이미지-텍스트 모델이 비디오-텍스트 테스크에도 적용 가능할지는 아직 연구된 바 없음. 그래서 우리가 한다 🤗 Goal: CLIP을 비디오-텍스트 테스크에 효율적으로 사용할 방법

2023년 4월 21일
·
0개의 댓글
·
post-thumbnail

Paper Review #9 - MM-BiFPN: Multi-Modality Fusion Network with Bi-FPN for MRI Brain Tumor Segmentation

Syazwany, Nur Suriza, et. al., "MM-BiFPN: Multi-Modality Fusion Network with Bi-FPN for MRI Brain Tumor Segmentation", IEEE Access 9(2021):160708-160720 이번 논문은 멀티모달 데이터를 처리하기 위한 multi encoder, late fusion, BiFPN 방식을 도입한 네트워크에 대한 논문이다. 본 논문에서 제안하는 MM-BiFPN은 크게 Multimodal encoder Cross-modality fusion Shared decoder 의 세가지 피쳐로 구성되어 있다. 전체적인 구조는 이와 같다. 일단 각 모달리티 데이터가 따로 추출 되고, 추출된 데이터들은 de

2023년 4월 17일
·
0개의 댓글
·
post-thumbnail

Paper Review #8 - Feature Pyramid Networks for Object Detection

Lin, Tsung-Yi, et al. “Feature pyramid networks for object detection.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2017 Feature pyramid는 다양한 스케일의 object를 탐지하기 위한 방법이다. 본 논문에서는 DCN(Deep Convolution Network)에서 다중 스케일 피라미드 계층구조를 사용해 feature pyramid를 구축한다. Lateral connection을 포함한 Top-down 구조를 통해 모든 scale에서 고차원의 semantic feature map을 구축한다. 또한 FPN을 Faster R-CNN에 적용한다. Preview 이 논문에서 언급하는 Pyramid란 Convolution network를 통해 얻은 feature map을 피라미드 형태로 쌓아올린 것을 의미한다.

2023년 4월 4일
·
0개의 댓글
·

VisualBERT 사용하기 (feat. Hugging Face 문서의 구멍메꾸기)

멀티모달 데이터를 분류하여 분석할 일이 있었는데요. 멀티모달 베이스라인 중에서 자주 등장하는 것중 하나가 VisualBERT가 있습니다. VisualBERT란 BERT의 Transformers 모델에 [텍스트,이미지]를 넣는 식으로 멀티모달용 임베딩을 만들어내는 모델입니다. The architecture of VisualBERT 사전학습은 이미지 캡셔닝을 위한 유명한 데이터셋인 COCO를 이용해서 학습을 했는데요, 논문처럼 VAQ 테스트로 사용할 수도 있지만, 사전학습 모델 학습과정에서 이미 텍스트랑 이미지를 한꺼번에 보는 멀티모달적인 학습력!!을 가졌다고 보기때문에 멀티모델 데이터를 위한 다운스트림 테스크의 임베딩으로 사용하기도 합니다. 목표: VisualBERT를 위한 이미지 피쳐 추출하기

2023년 3월 2일
·
0개의 댓글
·