시리즈

Computer Vision

1.M3T : three-dimensional Medical image classifier using Multi-plane and Multi-slice Transformer

본 논문은 2D CNN (Convolutional Neural Network), 3D CNN, Transformer를 조합하여, 3D MRI 이미지를 통해 알츠하이머 증상 (Alzheimer Disease, AD)를 분류해내는 모델을 제안한다.제안된 모델은 이전 3D

2025년 7월 15일

2.Segment Anything

입력 이미지는 encoder를 통해 $256$차원의 vector로 mapping한다. Encoder는 'Masked Autoencoders Are Scalable Vision Learners'에서 소개한 MAE pre-trained ViT를 사용한다.Encoder를 통

2025년 5월 30일

3.An Image is Worth 16x16 Words : Transformers for Image Recognition at Scale

Transformer 구조는 자연어처리 task에서 성공적인 결과를 낸 반면에, 컴퓨터비전은 Convolutional Neural Network (CNN)에 의존하고 있다. 본 논문은 Transformer를 컴퓨터비전 분야에 적용하여 classification에서 이전

2025년 2월 13일

4.End-to-End Object Detection with Transformers (DETR)

이전까지 제안된 방식들은 객체 인식 task를 해결하기 위해 non-maximal suppression (NMS) 나 spatial anchors 와 같은 사전 지식을 모델에 인코딩해야 했다. 본 논문은 이러한 사전 지식이나 특별한 라이브러리 없이 Transformer

2025년 2월 18일

5.U-Net : Convolutional Networks for Biomedical Image Segmentation

최근에 아산병원에서 MRI 이미지를 이용하여 간암을 분할하는 task를 수행하게 되어 segmentation 논문들을 읽고있다. 오늘은 그 중 한 획을 그엇던 U-Net에 대해 리뷰해볼까 한다.U-Net은 이전에 제안됐던 FCN (Fully Convolutional N

2025년 5월 20일

6.nnU-Net : Self-adapting Framework for U-Net-Based Medical Image Segmentation

CNN 기반의 segmentation 기법은 좋은 성능을 내기 위한 특수한 네트워크 구조 및 다양한 훈련 기법을 요구한다. 하지만 이러한 요소 없이 다른 종류의 다양한 데이터셋에 대해 일반적인 결과를 산출할 수 있는 알고리즘이 필요하다. U-Net은 네트워크 구조를 조

2025년 5월 25일

7.NeRF : Representing Scenes as Neural Radiance Fields for View Synthesis

NeRF (Neural Radiance Field)는 복잡한 scene에 대한 새로운 시점에서의 이미지를 렌더링하는 task (novel view synthesis)를 수행한다. 모델에 5차원의 좌표 정보 (ray의 방향 정보 ($\\theta , \\phi$) 와 r

2025년 2월 20일

8.Mip-NeRF : A Multiscale Representation for Anti-Aliasing Neural Radiance Fields

NeRF는 3D object 또는 scene을 촬영한 이미지들로 향하는 ray 위의 점을 샘플링해서 학습한 모델을 이용하여 새로운 시점에 대한 이미지를 렌더링하는 기술이다. 이 기법은 일정한 거리에서 촬영한 이미지들에 대해 좋은 렌더링 결과를 보여줬지만, 가까이에서 바

2025년 3월 7일

9.Structure from Motion - Epipolar geometry

3차원 scene과 이 scene을 보고 있는 두 개의 카메라가 있을 때, 우리는 3D 좌표와 각 카메라의 이미지 평면에 투영된 2D 좌표를 이용하여 두 카메라 사이의 기하학적 관계를 설명할 수 있다. 이 두 카메라 사이의 기하학적 관계를 찾는 것을 epipolar g

2025년 3월 5일

10.DUSt3R : Geometric 3D Vision Made Easy (진행 중)

Multi-View Stereo (MVS)는 이미지 간의 대응점을 통한 3차원 재구성을 위해 카메라 내부 파라미터와 외부 파라미터를 요구하지만, 이 파라미터를 구하는 과정은 상당히 번거롭다. DUSt3R은 Dense and Unconstrained Stereo 3D R

2025년 4월 7일

11.Depth Anything : Unleashing the Power of Large-Scale Unlabeled Data

컴퓨터 비전, 자연어 처리 분야 모두 다양한 downstream tast를 zero / few-shot으로 해결하는데 기여하는 foundation model을 개발하기 위해 많은 연구를 진행하고 있다.본 논문은 어떠한 이미지에 대해서도 depth를 예측할 수 있는 mo

2025년 9월 30일

12.SAM2 : Segment Anything in Images and Videos

Segment Anything Model (SAM)은 이미지에 대해 프롬프트를 기반으로 segmentation을 할 수 있는 foundation model이다.하지만 이미지는 현실 세계의 정적인 snapshot일 뿐이다. AR/VR, 로보틱스, 자율주행, 비디오 편집,

2026년 1월 7일

13.MedSAM2 : Segment Anything in 3D Medical Images and Videos

SAM (Segment Anything Model)과 같이 특정 task에 맞춰진 모델에서 광범위한 task를 수행할 수 있는 foundation 모델 개발로 패러다임이 전환됐다. SAM은 이미지 분할 task에서 놀라운 결과를 보였지만, 의료 도메인은 자연 도메인과

2026년 3월 27일

14.Camera calibration

카메라 캘리브레이션은 카메라의 parameter를 추정하는 과정이다. 이는 실세계의 3D point와 이미지 상의 2D 좌표 간의 정확한 관계를 결정하는데 필요한 카메라의 모든 정보를 의미한다.전체적인 흐름은 아래 그림과 같다.한 물체를 구멍에 관통시키면 이미지 형태로

2026년 7월 7일

15.Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

비디오에서 장면의 복잡한 기하학과 모션을 이해하고 재구성하는 것은 컴퓨터 비전 분야에서 여전히 까다로운 과제이다. 본 논문은 이 과제를 해결하기 위해 D4RT 모델을 소개하고, 이 모델은 단일 비디오로부터 depth, 시공간적 대응, 카메라 파라미터를 동시에 추론한다.

2026년 7월 7일