지속적으로 neural script knowledge, 그리고 Visual Question-Answer 관련 논문을 읽어서, 이번에는 정말 specific한 domain인 medical domain에서의 Vision-Language multimodal 논문을 읽어보았다
MERLOT RESERVE는 MERLOT 이후에 등장한 neural script knowledge 모델이다. MERLOT은 그래도 이해를 하면서 읽었는데, 이번 논문을 이해하지 못하는 부분이 조금 많았다. 그래도 읽고 이해를 해보려고 노력해봤으니... 정리를 하려고 한
이번 게시물에서는 유튜브 영상으로 label 없이 multimodal script knowledge를 학습하는 self-supervised model인 MERLOT의 논문을 정리하고자 한다. 논문 읽기 전 - BERT 정리 논문을 이해하기 위해 알아야하는 BERT를
이번 게시물에서는 어떤 multimodal sequence가 주어졌을 때 의미론적 유사성을 측정할 수 있는 JSFusion이라는 접근법과 관련된 논문을 정리하고자 한다. Abstract 본 논문에서는 두 개의 multimodal sequence 데이터 사이의 의미론
CMU MMML 강의 수강을 시작하면서 multimodal의 활용 분야들을 알게 되었는데, 이 논문은 여러 분야들 중 Visual Question Answering, 특히 영상에서 VQA를 수행할 때 고려해야하는 새로운 시각을 제안한다. 0. Abstract (초
Competitioni LinkData LinkImage Data + Tabular Data윗 사진과 같이 주어진 이미지 데이터에는 비슷한 조직이 1~4번 반복되어져 있다. 그래서 2등분선과 4등분선을 그어 background에 해당하는 pixel의 개수를 통해 하나의
Training the Model with datas of various modality that is collected by 5 senses of human, which are 1) Vision, 2) Text, 3) Speech, 4) Touch, 5) Smell,
공정 프로세스 최종 품질값 예측이번 경진대회의 목표는 일정 시간별로 제품이 생산되는 공정에서 생산된 제품이 어떤 측정치를 가질지를 회귀 모델을 통해 예측하는 것이다. 본 프로젝트에서 사용한 데이터셋은 여러대의 기계를 통해 제품을 생산하는 공정에서 각 기계의 각 시간별
SSDC-KATUSA ML/DL 팀 멤버 2명과 함께 진행했다. 일과 이후의 시간과 주말 외박 시간을 활용하여 대회 준비를 했다. 물론 구내식당 식수인원 예측 경진대회도 시계열 관련 대회였지만, 이번 대회는 예측 기간인 2022년의 데이터를 학습에 사용할 수 없다는 점
이전에는 Selective Search와 ROI를 사용했다면, Faster RCNN에서는 RPN이라는 딥러닝 network로 이를 구성한다. Object Detection을 구성하는 모든 요소들을 deep learning만으로 구성한 철 object detection
1) SPP Layer을 ROI Pooling Layer으로2) End-to-End Network Learning (ROI Proposal은 제외)SVM을 Softmax로 변환하여 Deeplearning network 안으로 들어오게함. Multi-task loss 함
1) 2000개의 Region 영역 이미지가 CNN으로 입력 되면서 Object Detection 수행 시간이 오래걸림. 2) Region 영역 이미지가 Crop/Warp되어 원본과는 다른 형태를 가지게 됨. 2000개의 Region Proposal 이미지를 CNN으로
RCNN은 Region Proposal과 CNN Detection이 분리되어있는 2 stage detector이다. Stage 1에서는 Selective Search를 사용하여 2000개의 region 영역을 proposal받는다. 즉, 2000개의 object가 있을
오늘은 Object Detection과 Segmentation에서 사용되는 데이터셋들과 해당 분야에서의 OpenCV에 대해서 정리해보고자 한다. 주요 데이터셋 간략소개 여러 Object Detection과 Segmentation 딥러닝 패키지가 아래 3개의 데이터셋들
1980 ~ 1990 : Audio-visual speech recognition1990 ~ 2000 : 1) Content-based video retrieval. A lot more videos were available on youtube at this time.
Classification : 각 이미지가 어떤 이미지인지 예측하는 것Localization : 이미지 내에 있는 하나의 object의 위치를 bounding box로 지정하여 찾음Detection : 이미지 내에 있는 하나 이상의 object의 위치를 bounding
VGGNet은 ILSVRC 2014에서 2등을 한 컴퓨터 비전 모델이다. 이번 포스팅에서는 본 논문의 Introduction, ConvNet Configurations를 정리하고, VGGNet의 구현 코드를 작성해볼 예정이다. 최근 Convolutional Networ
이번 포스팅에서는 GoogLeNet(Inceptionv1) 논문을 정리해보려고 한다. 1. Abstract 이 논문의 초록에서는 GoogLeNet에 대해 간략히 설명하고 있다. GoogLeNet의 가장 중요한 특징은 연산을 하기 위해 소모되는 자원의 사용 효율이 개