Point Transformer
Transformer
기존 데이터셋에서 텍스트 콘텐츠는 일반적으로 short and concise하므로, 비디오의 the redundant semantics을 완전히 설명하기 어려움.\--> A single text embedding은 비디오 임베딩을 포착하고 검색 기능을 강화하는 데 있어
Feature Descriptor에 대해서 살펴보자
RANSAC이 왜 필요한지 살펴보자.
Point Feature Histograms(PFH)와 Fast Point Feature Histograms(FPFH)를 살펴보고자 한다.
Real3D-AD 논문을 리뷰하고자 한다.
Real 3D-AD에서 제안한 reg3dad 코드를 리뷰하고자 한다.
Towards Scalable 3D Anomaly Detection and Localization: A Benchmark via 3DAnomaly Synthesis and A Self-Supervised Learning NetworkReal3D-AD: A Dataset
대표적인 Registration 알고리즘을 살펴보고자 한다.
Object Detection의 기본에 대해 살펴보자.
NLP에서는 foundation models이 많이 나오고 있으나 Vision 분야에서는 task types의 다양성과 통합된 형태의 부재로 foundation models는 오직 특정한 subdomains만 다룬다.그러나 객체를 찾고 식별하는 것은 컴퓨터 비전 시스템
MoAI-Compressor & MoAI-Mixer를 소개한다.MoAI-Compressor는 external CV 모델의 출력값을 VL task에 적합한 보조적인 visual information을 aligns하고 condenses한다.MoAI-Mixer는 3가지 타입
LLaVA! Visual Instruction Tuning 논문 리뷰하였습니다.
LLaVA-NeXT 를 알아보고자 한다.
Roformer 에 대해서 알아보자.
뉴럴 네트워크의 정보 흡수 능력은 파라미터의 개수에 의해서 제한된다. Conditional computation은 모델의 연산량 대비 성능이 극적으로 향상할 수 있다고 제안된 이론이다. 하지만, 실제로는 알고리즘적으로 그리고 성능 한계가 존재한다. 본 논문에서는 con
Abstract Sparsely-activated Mixture-of-experts(MoE)모델은 연산량을 유지하면서 파라미터의 수를 아주 많이 늘릴 수 있도록 하였습니다. 하지만, expert routing 전략의 부족으로 인해 특정 experts는 학습이 덜 되는