post-thumbnail

Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training - 논문 정리

지속적으로 neural script knowledge, 그리고 Visual Question-Answer 관련 논문을 읽어서, 이번에는 정말 specific한 domain인 medical domain에서의 Vision-Language multimodal 논문을 읽어보았다

2023년 5월 16일
·
0개의 댓글
·
post-thumbnail

MERLOT RESERVE: Neural Script Knowledge through Vision and Language and Sound - 논문 정리

MERLOT RESERVE는 MERLOT 이후에 등장한 neural script knowledge 모델이다. MERLOT은 그래도 이해를 하면서 읽었는데, 이번 논문을 이해하지 못하는 부분이 조금 많았다. 그래도 읽고 이해를 해보려고 노력해봤으니... 정리를 하려고 한

2023년 5월 9일
·
0개의 댓글
·
post-thumbnail

MERLOT: Multimodal Neural Script Knowledge Models - 논문 정리 (+BERT 정리)

이번 게시물에서는 유튜브 영상으로 label 없이 multimodal script knowledge를 학습하는 self-supervised model인 MERLOT의 논문을 정리하고자 한다. 논문 읽기 전 - BERT 정리 논문을 이해하기 위해 알아야하는 BERT를

2023년 5월 8일
·
0개의 댓글
·
post-thumbnail

A Joint Sequence Fusion Model for Video Question Answering and Retrieval - 논문 정리

이번 게시물에서는 어떤 multimodal sequence가 주어졌을 때 의미론적 유사성을 측정할 수 있는 JSFusion이라는 접근법과 관련된 논문을 정리하고자 한다. Abstract 본 논문에서는 두 개의 multimodal sequence 데이터 사이의 의미론

2023년 5월 5일
·
0개의 댓글
·
post-thumbnail

TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering - 논문 정리

CMU MMML 강의 수강을 시작하면서 multimodal의 활용 분야들을 알게 되었는데, 이 논문은 여러 분야들 중 Visual Question Answering, 특히 영상에서 VQA를 수행할 때 고려해야하는 새로운 시각을 제안한다. 0. Abstract (초

2023년 5월 4일
·
0개의 댓글
·
post-thumbnail

Code Review : 1st Place Code for AI competition for predicting lymphadenopathy in breast cancer

Competitioni LinkData LinkImage Data + Tabular Data윗 사진과 같이 주어진 이미지 데이터에는 비슷한 조직이 1~4번 반복되어져 있다. 그래서 2등분선과 4등분선을 그어 background에 해당하는 pixel의 개수를 통해 하나의

2023년 4월 29일
·
0개의 댓글
·
post-thumbnail

Code Review : Baseline Code for AI competition for predicting lymphadenopathy in breast cancer

Training the Model with datas of various modality that is collected by 5 senses of human, which are 1) Vision, 2) Text, 3) Speech, 4) Touch, 5) Smell,

2023년 4월 29일
·
0개의 댓글
·
post-thumbnail

[국방 AI 부문 MINI 경진대회] 공정 프로세스 최종 품질값 예측

공정 프로세스 최종 품질값 예측이번 경진대회의 목표는 일정 시간별로 제품이 생산되는 공정에서 생산된 제품이 어떤 측정치를 가질지를 회귀 모델을 통해 예측하는 것이다. 본 프로젝트에서 사용한 데이터셋은 여러대의 기계를 통해 제품을 생산하는 공정에서 각 기계의 각 시간별

2023년 4월 29일
·
2개의 댓글
·
post-thumbnail

2022 UOS 서울시 지역구별 따릉이 대여수 예측(Dacon)

SSDC-KATUSA ML/DL 팀 멤버 2명과 함께 진행했다. 일과 이후의 시간과 주말 외박 시간을 활용하여 대회 준비를 했다. 물론 구내식당 식수인원 예측 경진대회도 시계열 관련 대회였지만, 이번 대회는 예측 기간인 2022년의 데이터를 학습에 사용할 수 없다는 점

2023년 4월 29일
·
0개의 댓글
·
post-thumbnail

RCNN계열 Object Detector(Faster RCNN) - 정리

이전에는 Selective Search와 ROI를 사용했다면, Faster RCNN에서는 RPN이라는 딥러닝 network로 이를 구성한다. Object Detection을 구성하는 모든 요소들을 deep learning만으로 구성한 철 object detection

2023년 4월 29일
·
0개의 댓글
·
post-thumbnail

RCNN 계열 Object Detector(Fast RCNN) - 정리

1) SPP Layer을 ROI Pooling Layer으로2) End-to-End Network Learning (ROI Proposal은 제외)SVM을 Softmax로 변환하여 Deeplearning network 안으로 들어오게함. Multi-task loss 함

2023년 4월 29일
·
0개의 댓글
·
post-thumbnail

RCNN Object Detector(SPP Net) - 정리

1) 2000개의 Region 영역 이미지가 CNN으로 입력 되면서 Object Detection 수행 시간이 오래걸림. 2) Region 영역 이미지가 Crop/Warp되어 원본과는 다른 형태를 가지게 됨. 2000개의 Region Proposal 이미지를 CNN으로

2023년 4월 29일
·
0개의 댓글
·
post-thumbnail

RCNN계열 Object Detecter(RCNN) - 정리

RCNN은 Region Proposal과 CNN Detection이 분리되어있는 2 stage detector이다. Stage 1에서는 Selective Search를 사용하여 2000개의 region 영역을 proposal받는다. 즉, 2000개의 object가 있을

2023년 4월 29일
·
0개의 댓글
·
post-thumbnail

Object Detection과 Segmentation을 위한 주요 데이터셋 및 OpenCV 소개 - 정리

오늘은 Object Detection과 Segmentation에서 사용되는 데이터셋들과 해당 분야에서의 OpenCV에 대해서 정리해보고자 한다. 주요 데이터셋 간략소개 여러 Object Detection과 Segmentation 딥러닝 패키지가 아래 3개의 데이터셋들

2023년 4월 26일
·
0개의 댓글
·

CMU MMML - Lecture 1.2 Datasets

1980 ~ 1990 : Audio-visual speech recognition1990 ~ 2000 : 1) Content-based video retrieval. A lot more videos were available on youtube at this time.

2023년 4월 22일
·
2개의 댓글
·
post-thumbnail

Object Detection의 이해 - 정리

Classification : 각 이미지가 어떤 이미지인지 예측하는 것Localization : 이미지 내에 있는 하나의 object의 위치를 bounding box로 지정하여 찾음Detection : 이미지 내에 있는 하나 이상의 object의 위치를 bounding

2023년 4월 17일
·
0개의 댓글
·
post-thumbnail

Very Deep Convolutional Networks for Large-Scale Image Recognition(VGGNet) - 논문 구현

VGGNet은 ILSVRC 2014에서 2등을 한 컴퓨터 비전 모델이다. 이번 포스팅에서는 본 논문의 Introduction, ConvNet Configurations를 정리하고, VGGNet의 구현 코드를 작성해볼 예정이다. 최근 Convolutional Networ

2023년 4월 15일
·
0개의 댓글
·
post-thumbnail

Going Deeper with Convolutions(InceptionV1) - 논문 구현

이번 포스팅에서는 GoogLeNet(Inceptionv1) 논문을 정리해보려고 한다. 1. Abstract 이 논문의 초록에서는 GoogLeNet에 대해 간략히 설명하고 있다. GoogLeNet의 가장 중요한 특징은 연산을 하기 위해 소모되는 자원의 사용 효율이 개

2023년 4월 13일
·
0개의 댓글
·