# multi-modal

17개의 포스트
post-thumbnail

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

Transformer model은 CNN의 영역이었던 Image deep learning에서 큰 두각을 드러내며 그 성능을 입증한 바 있다. 이 논문은 그런 Transformer model에 multi-modal data를 넣어 representation vector를 추출하고 contrastive learning을 통해 여러 downstream task에서 좋은 성능을 보였다. Intro 이론적 배경 Vision Transformer https://www.thedatahunt.com/en-insight/vision-transformer https://kmhana.tistory.com/27 위 링크 내용을 참고했다. 자연어 처리에서 주로 사용되던 Transformer 구조가 이제는 image deep learning에도 쓰이기 시작했다. Self-attention을 활용해 더 높은 성능을 구현하고자 했지만 기존의 CNN 구조에는 이것이 잘 이식되지 않았다.

1일 전
·
0개의 댓글
·
post-thumbnail

[ImageBind 논문 리뷰](One Embedding Space To Bind Them ALL)

ImageBind 1. 논문이 다루는 Task Task: Emergent Zero-Shot Classification, Retrieval Input: Text, Image, Depth, Video, Audio, Therma, IMU, Depth Output: Retrieval, Text, Image Emergent Zero-Shot Classification : Pair가 없는 데이터 셋에 대하여 통합적인 Embedding Space를 통한 분류 2. 기존 연구 한계 *A single image can bind together many experiences – an image of a beach can

4일 전
·
6개의 댓글
·
post-thumbnail

[논문 리뷰] ImageBind: One Embedding Space To Bind Them All

paper link: https://arxiv.org/pdf/2309.03905.pdf CVPR 2023에 Meta에서 낸 논문 0. Abstract image, text, audio, depth, thermal, IMU data 등 6가지 다른 modality의 joint embedding을 학습하는 IMAGEBIND 제안 cross-modal retrieval, composing modalities with arithmetic, cross-modal detection/generation을 포함한 새로운 응용 프로그램을 즉각적으로 가능하게 함 ImageBind는 vision, non-vision task에 대한 vision model을 평가하는 새로운 방법으로 사용될 수 있음 1. Introduction 딥러닝 모델: latent space에 data를 embedding하는 func

2023년 9월 17일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] Multimodal Learning with Transformers: A Survey

link: https://arxiv.org/abs/2206.06488 IEEE TPAMI 2023 Abstract 멀티모달 데이터를 지향하는 transformer 기술에 대한 포괄적인 조사를 제시 멀티모달 학습 배경, transformer 생태계 및 멀티모달 빅데이터 시대, 기하학적 위상학적 관점에서 vanilla/vision/multi-modal transformer에 대한 체계적 검토, 멀티모달 pre-training 및 특정 멀티모달 작업을 위한 멀티모달 transformer application에 대한 검토, 멀티모달 transformer model 및 application이 공유하는 공통 과제 및 설계에 대한 요약, 커뮤니티의 개방형 문제 및 잠재적 연구 방향에 대한 논의 1. INTRODUCTION transformer를 사용한 멀티모달 학습에 초점 맞춤 transformer에 대한 입력은 하나 이상의 토큰 시퀀스와 각 시퀀스의 속성을 포함할

2023년 9월 11일
·
0개의 댓글
·
post-thumbnail

[논문리뷰] PAESE, MixMatch, AMIGOS

PARSE-Pairwise Alignment of Representations in Semi-Supervised EEG Learning for Emotion Recognition (Guangyi Zhang et al., 2022) 👉🏻 PARSE GitHub 감정 인식을 위한 신뢰할 수 있는 뇌파 표현을 학습하기 위한 새로운 반지도형 아키텍처인 PARSE를 제안한다. 1) 대량의 레이블이 지정되지 않은 데이터와 제한된 수의 레이블이 지정된 데이터 사이의 잠재적인 분포 불일치를 줄이기 위해 PARSE는 쌍별 표현 정렬을 사용한다. 2) 모델을 엄격하게 테스트하기 위해 PARS

2023년 9월 4일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] Learning Transferable Visual Models From Natural Language Supervision

Abstract 기존 CV 분야의 SOTA 모델은 사전에 정의된 object categories들의 데이터셋만을 예측하도록 학습되었다. 이러한 supervised 부분이 generality와 usability를 제한한다. 추가적인 labeled data가 필요하기 때문이다. 이미지에 대해 텍스트로 바로 학습하는 방법이 더 유용할 것이다. 4억개의 데이터셋으로 caption과 이미지 간 예측하는 사전학습 방법을 통해 SOTA image representation을 학습하는데 효과적이었다. 사전학습 이후, natural language로 학습된 visual concepts를 reference해 모델의 zero-shot transfer를 가능하게 해주었다. 30개가 넘는 CV, OCR, 영상 인식 등의 task들에서 fully supervised 방식만큼 좋은 성능을 보였다. code: https://github.com/OpenAI/CLIP

2023년 8월 6일
·
1개의 댓글
·
post-thumbnail

[논문 리뷰] BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation

Abstract 최근 센서 융합 3D 객체 검출은 point-level fusion을 기반 이 논문에서는 geometric, semantic 정보를 보존할 수 있으며, LiDAR, Camera 데이터 형식이 공유 가능한 BEV representation space에 multi-modal features를 통합하여 point-level fusion의 한계를 해결하고자 함 최적화된 BEV pooling을 제안하여 view transformation의 효율을 향상시켰음 nuScenes 3D object detection benchmark에서 mAP과 NDS를 1.3% 향상시켰으며, BEV map segmentation에서 mIoU를 13.6% 향상시켰음 github-code 모델을 실행시켜보려고 하였으나 2080ti 11g로는 lidar+camera 센서 융합은 커녕 lidar-

2023년 6월 22일
·
0개의 댓글
·

EV-Action: Electromyography-Vision Multi-Modal Action Dataset

0. 개요 인간 행동 분석은 다양한 분야에서 적용되며, 목적에 따라 사용 가능한 데이터셋의 유무가 연구의 발전에 영향을 준다. 초창기 행동 데이터셋들은 RGB만으로 구성되었지만, 이후 3D 센서를 통해 깊이에 대한 정보도 포함하였고, 나중에는 스켈레톤 데이터를 도입하게 되었다. 다만, 주로 Kinect 센서로 수집되는 스켈레톤 데이터는 수집 장치의 성능으로 인해 낮은 성능을 낮은 성능을 보여준다. 이에 본 논문에서는 광학 추적 기반의 Vicon 시스템을 이용하여 더 높은 샘플링 속도로 더 높은 정확도를 갖는 스켈레톤 데이터를 수집하였다. 또한, EMG 신호 데이터를 수집하고 전처리하는 과정을 통해 행동 분석을 위한 멀티 모달 데이터셋, EV-Action을 제시한다. 1. 관련 연구 1.1. RGB & Skeleton Datasets 초기에는 10개의 행동 클래스를 갖는 작은 규모의 데이터셋으로 동작 분석을 수행하였다. 딥러닝이 발전함에 따라, 점차 그 규모는 증

2023년 6월 17일
·
0개의 댓글
·
post-thumbnail

[CLIP 논문 리뷰](Learning Transferable Visual Models From Natural Language Supervision)

[CLIP] Learning Transferable Visual Models From Natural Language Supervision *본 템플릿은 DSBA 연구실 이유경 박사과정의 템플릿을 토대로 하고 있습니다. 1. 논문이 다루는 Task Task: Zero-Shot Image Classification Input: Image Output:Text Zero-shot : 어떻게 하면 Training set에 없는 보지 않은 데이터를 예측할까?, 어떻게 하면 데이터에 없는 새로운 클래스를 분류할까? 기

2023년 6월 14일
·
1개의 댓글
·
post-thumbnail

[논문 리뷰] VL-LTR_ Learning Class-wise Visual-Linguistic Representation for Long-Tailed Visual Recognition

본 논문은 CLIP의 visual정보와 language 정보를 모두 활용하여 long-tailed data의 tail class에서 부족한 정보량을 보충하는 방법에 대한 연구를 소개하고 있다. Paper : VL-LTR_ Learning Class-wise Visual-Linguistic Representation for Long-Tailed Visual Recognition Intro : Long-tailed distribution in Real-world ![](https://velog.velcdn.com/images/hyeda/post/c52298c2-51d1-4a10-9205-0a83e82dc75

2023년 6월 3일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] ConZIC_ Controllable Zero-shot Image Captioning by Sampling-Based Polishing

본 논문은 controllable signal을 적용한 최초의 zero-shot captioning method인 ConZIC을 소개한다. Paper : ConZIC_ Controllable Zero-shot Image Captioning by Sampling-Based Polishing Introduction 최근 제로샷 가능성은 딥러닝에서 중요한 이슈이다. 특히, 이미지캡셔닝에서의 기존 Supervised methods들은 많은 양의 high quality paired data에 의존하고, train data 분포에서 벗어나는 real-world에 대한 정보를 반영하기 어렵다는 한계점이 존재한다. 이에 본 논문에서는 1)

2023년 6월 3일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] Language Models Can See_ Plugging Visual Controls in Text Generation

본 논문은 2022년 arXiv에 등재된 이미지캡셔닝 관련 논문으로, 기존의 CLIP기반 이미지 캡셔닝 모델의 한계점인 paired data dependency를 극복할 새로운 decoding strategy를 활용한 모델을 제안한다. Paper : Language Models Can See_ Plugging Visual Controls in Text Generation 1. Introduction Pre-train Language Model 최근 거대 Pre-train 모델은 NLP task에서 좋은 성능을 달성했다. 예를 들어 GPT-2는 디코딩을 통해 next token 예측할 시, textua

2023년 6월 3일
·
0개의 댓글
·
post-thumbnail

2022, End-to-End Audio-Visual Neural Speaker Diarization [2022, Interspeech]

MISP baseline, paper, github Figure Abstract multimodal inputs uses audio features, lip regions of interest, and i-vector embeddings I-vectors are the key point to solve the alignment problem caused

2023년 5월 17일
·
0개의 댓글
·
post-thumbnail

2023, WHU-Alibaba [MISP 2022]

Figure SYSTEM DESCRIPTION Visual front-end modified ResNet18-3D model for processing lip videos They make three changes to the standard Pytorch implementation: 1) adjusting the first stem layer's convolutional kernel size(=7), stride(=2), and output channels(=32) w/o maxpooling 2) altering the output channels of the residual blocks

2023년 5월 17일
·
0개의 댓글
·
post-thumbnail

VQA: Visual Question Answering

1. Introduction 이 논문에서는 "AI-complte" task 로 Visual Question Answering 에 대해 소개하고 있습니다. > AI-complete task란? AI 분야에서 가장 어려운 task, 즉 human-level의 intelligence를 요구하는 task입니다. (은어같은느낌, 공식적으로 쓰이지 않음) VQA task는 이미지와 그 이미지에 대한 질문(open-ended, free form - 답하는 사람마다 답이 다를 수 있고 형태가 다양한)이 주어졌을 때 올바른 답변을 만들어내는 task 입니다. open-ended question에 대답하기 위해서는 다양한 AI 능력이 필요합니다. fine-grained recognition : 이 피자에 있는 치즈가 어떤 종류인가 commonsense reasoning : 안경을 쓴 남자가 나온 사진 - 이 남자는 시력이 좋은가 knowledg base reasonin

2023년 2월 1일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation

Introduction Vision-and-Language Navigation(VLN)은 agent가 language instruction에 따라 unseen environment에서 목적지로 도착하기 위한 task이다 초기에는 step-by-step guidance로 세부적인 지시사항을 순차적으로 주는 방향의 연구들이 있었으나 이는 실용적이지는 못했다. 따라서, goal-oriented instructions에 대한 연구가 이루어졌고 agent가 이미 수행한 지시사항과 방문한 위치에 대한 memory를 담기 위해 recurrent architecture를 사용하였다. 하지만, rich space-time structure에서 implicit memory mechanism은 비효율적이기 때문에

2022년 7월 4일
·
0개의 댓글
·
post-thumbnail

Perceiver IO (Jaegle et al., 2022, ICLR)

📑 Paper Jaegle, A., et al., "Perceiver io: a general architecture for structured inputs & outputs," Proc. of the 10th International Conference on Learning Representations (ICLR 2022), Online, 2022. ✨ Contribution 정리 1. General-purpose architecture Perceiver IO를 제안 다양한 modality의 input과 output Latent network로 인해, complexity가 input과 output의 크기에 선형적임 0. Introduction 많은 연구에서는 single task의 input과 output을 처리하기 위

2022년 5월 27일
·
0개의 댓글
·