# VQA

A Joint Sequence Fusion Model for Video Question Answering and Retrieval - 논문 정리
이번 게시물에서는 어떤 multimodal sequence가 주어졌을 때 의미론적 유사성을 측정할 수 있는 JSFusion이라는 접근법과 관련된 논문을 정리하고자 한다. Abstract 본 논문에서는 두 개의 multimodal sequence 데이터 사이의 의미론

TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering - 논문 정리
CMU MMML 강의 수강을 시작하면서 multimodal의 활용 분야들을 알게 되었는데, 이 논문은 여러 분야들 중 Visual Question Answering, 특히 영상에서 VQA를 수행할 때 고려해야하는 새로운 시각을 제안한다. 0. Abstract (초

VQA: Visual Question Answering
1. Introduction 이 논문에서는 "AI-complte" task 로 Visual Question Answering 에 대해 소개하고 있습니다. > AI-complete task란? AI 분야에서 가장 어려운 task, 즉 human-level의 intelli
ETSI TR 102 493 문서 요약
모바일 환경에 적용되는 다양한 서비스 및 시나리오에서의 비디오 품질 알고리즘 사용에 대한 지침 제공Video Quality Assessment (VQA)는 비디오 압축 시스템 사용과 모바일 네트워크를 통한 전송이 증가함에 따라 central issue가 되었다. Cod
ITU-T REC P.1203 / P.1204
두 가지 모두 많은 주관적 테스트를 통해 표준화 과정을 검증하여, human score와 비교하여 높은 정확도를 보임P.1203은 전반적인 품질 예측에 Stalling 같은 효과를 통합한 최초의 표준화 모델P.1204의 모델, 그 중 특히 비트스트림 기반 모델인 P.1
ITU-T J.343.1/2 문서 요약
HDTV 및 멀티미디어에 대한 객관적 인식 비디오 품질 측정 방법을 제공한다.ITU-T J.343.1은 암호화된 비트스트림 데이터를 사용할 수 있는 경우 (Encrypted bitstream data / Hybrid-NRe 방식)ITU-T J.343.2는 암호화되지 않

[정리] Clinical AI: Low Resource Technique, Tasks, Survey, Research, Data, Model, ...
정리 : Low Resource Technique(Data Augmentation), Representation, Survey, Model, Data, Other Technique.
[논문리뷰] MedFuseNet: An attention-based multimodal deep learning model for visual question answering in the medical domain(2021, Scientific reports)
2021, oct, State-of-The-Art Med-VQA model review

[논문리뷰] Medical Visual Question Answering: A Survey
Survey Paper review : Medical VQA

[논문리뷰] Predicting Human Scanpaths in Visual Questions Answering, in CVPR 2021.
Paper: Predicting Human Scanpaths in Visual Question Answering

Visual Question Answering using Deep Learning: A Survey and Performance Analysis
Survey paper for VQA(2020)

[논문리뷰] Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding
논문제목Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding본 논문은 NeurIPS 2018에 발표되었으며, spotlight을 받았습니다.참고자료YAI 김진우님의 Neur
[논문리뷰] MDETR - Modulated Detection for End-to-End Multi-Modal Understanding
"MDETR - Modulated Detection for End-to-End Multi-Modal Understanding(2021)"에 관한 리뷰입니다.

[관련연구]State-of-the-Art model in VQA
※ 본 글은 VQA or 'text to bounding box' 관련 모델들의 연구 및 코드를 간단히 정리했으며, 2020~2021년의 일부 연구의 경우 추가로 성능도 비교하였습니다.

[관련연구]Object detection using text
※ Text를 이용해 Image 내의 물체를 탐색하는 연구에 관해 정리한 글이다. 즉, Text(문장, 구, 절, 단어 등)과 Image를 input으로 받아 Output으로 Bounding box를 반환해주는 Text-Object-Detection 연구.

[관련연구]VQA - papers with code
※ 본 글은 Video object segmentation에 선행하는 모델로서 작동하는 VQA 모델을 찾기 위해 사용가능한 github code와 paper를 대략적으로 정리한 글입니다. 작성일 : 2021-05-30