선형 대수에서 indenpendence(독립), orthogonality(직교)는 굉장히 중요한 개념이다. 하지만 통계 공부를 하다 보면, 확률 변수들 간의 independence, correlation이라는 개념을 배우게 되며 혼란스러워지기 시작한다.확률 변수들 간의
이 논문은 quantum chemistry와 관련된 QM9이라는 데이터셋에서 높은 성능을 달성했다는 점에서도 의미가 있지만, 본 논문 이전의 다양한 graph neural network 알고리즘들을 하나의 형태로 통합했다는 점에서 큰 의미가 있습니다.graph neur
maximum likelihood estimation은 빈도주의 통계학에서 파라미터를 점추정할 때 흔히 사용하는 방법입니다.추정의 대상이 되는 파라미터는 특정 분포의 파라미터일수도 있고, 어떤 모델의 파라미터일 수도 있습니다. 이번 포스팅에서는, 모델의 파라미터를 추정
최근 컴퓨터비전, 자연어처리 그리고 오디오 도메인에서까지 공통적으로 사용되는 인공신경망 구조가 있습니다. 2017년, Attention is all you need 라는 논문에서 발표한 트랜스포머 (transformer) 라는 구조입니다. 트랜스포머는 sequentia
기존의 Question Answering(QA)에서는 거대한 규모로 학습된 언어모델을 fine-tuning하는 방식으로 학습이 이루어지기도 했으나, 이러한 방식은 몇 가지 한계점을 가집니다.answer prediction에 대한 설명력(explainability)가 부
Graph neural network를 활용한 task는 크게 node classification, link prediction, graph classification으로 나뉩니다. 각각의 task가 무엇인지 이해를 돕기 위해 예를 들자면, Node classifica
이웃 노드 aggregation에 대한 다양한 방법론이 존재합니다. node degree에 기반한 normalization, 다양한 set aggregation operations, graph attention에 대해 다룹니다.
오늘은 가장 기본적인 Graph Neural Network의 프레임워크인 neural message passing에 대해 소개하겠습니다. node2vec이나 DeepWalk와 같은 방식으로, 각 노드에 상응하는 임베딩(shallow embedding)을 학습할 수도
논문 제목 : Open-Vocabulary DETR with Conditional Matching 본 논문에서는, RPN을 통한 Object proposal과 VL-foundation model을 통한 open vocabulary classfication의 결합으로
요즘 관심을 가지고 있는 분야는, 거대한 규모로 사전학습된(오픈소스로 공개된) vision-language foundation모델(ex. CLIP, ALIGN)을 사용하여 최소한의 튜닝으로 다양한 downstream에 적용하는 것입니다.natural language s
오늘은 graphsage라는 프레임워크를 제안한 논문에 대해 다루어 보겠습니다. Node2vec이나 DeepWalk와 같은 shallow node embedding learning을 통해 고정된 node들에 대한 representation을 학습할 수 있습니다.하지만,
본 포스팅에서는 node embedding을 학습하는 방법론을 소개한 2016년 논문, node2vec을 중점적으로 소개하고자 합니다.
오늘 소개할 논문은 Unified-IO입니다. 최근 computer vision이나 vision language task를 수행하는 모델들은, pretrained backbone에 task-specific module(parameter)를 추가하여 fine-tuning
bayesian estimation은 어떠한 모수(Parameter)가 unknown constant가 아닌, 어떠한 확률 분포를 가지는 확률 변수라고 가정한다. 이러한 가정을 바탕으로 데이터 $\\mathbf{x}$가 주어졌을 때, 모수 $\\theta$의 확률 분포
CLIP은 이미지-캡션 pair로 학습되어, 이미지 전체와 문장 전체를 matching하는 역할을 한다. 하지만, open vocabulary object detection과 같은 방법론에서는, 이미지 전체가 아닌 이미지의 sub-region에 대한 image rec
2차원의 이미지는 2차원의 텐서로 표현할 수 있지만, 3차원 데이터를 표현하는 데에는 다양한 방법이 존재한다. Voxel Grid, Point Cloud와 같이 explicit한 방식으로 표현할 수도 있지만, neural network를 통해서 implicit하게 표현
최근 openAI에서 발표한 DALL.E2의 놀라운 성능에 감명 받아, 논문을 읽어보다 diffusion model에 대해 먼저 공부하기 위해, Denoising diffusion probabilistic model(DDPM)에 대해 공부해 보았다.생성 모형은 기본적으
HowTo100M dataset은 유튜브 영상으로부터 수집된 거대한 규모의 비디오 데이터셋이다. 추상적인 주제의 영상이 아닌, 물리적인 행동과 행동에 대한 음성 묘사가 존재하는 instructional video들로 구성되어 있다. MSR-VTT처럼 수작업으로 vid
우선 eigen decomposition과 spectral decomposition을 다루기 앞서, 행렬 연산의 여러 속성들에 대해 간략히 요약해 보았다.$(A^{-1})^T = (A^T)^{-1}$if A is singular(rows are not independe
image encoder과 text encoder를 사용하여 representation 산출 후, multimodal space에 projection → NCE loss를 사용하여 paired image-text간의 mutual information을 최대화함(CLIP