SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM

FSA·2024년 8월 30일
post-thumbnail

1. GPT 요약

  • 이 논문은 Dense SLAM(Simultaneous Localization and Mapping)에서
    • 고품질의 3D 재구성을 위해 3D Gaussians을 활용하는 방법을 제안

1.1. 주요 내용 요약:

  1. SplaTAM의 목적:

    • SplaTAM은 기존의 SLAM 기법들이 가진 제한점을 극복하기 위해 제안
    • 기존 방법들은 종종 비볼륨적이거나 암시적인 방식으로 장면을 표현하며, 이는 고해상도의 재구성에 한계
      • 비볼륨적
        • 3차원 공간을 점, 선, 또는 표면만을 사용해서 장면을 표현하는 경우
        • 이런 방식은 공간의 일부분만 표현하고, 나머지는 빈 공간으로 남겨두기 때문에, 전체적인 3D 형태를 완전히 표현하지 못합니다.
      • 암시적인 방식
        • 예시: 실제로 사진 속에 있는 모든 픽셀을 3D로 표현하는 대신, AI가 사진의 내용을 분석해 내부적으로 그 장면을 재구성하는 것
        • 명시적?
          • 장면이나 객체를 직접적으로 표현하는 방식을 의미
          • 즉, 3D 좌표계 안에서 객체를 구체적인 형태로 표현
    • SplaTAM은 이러한 한계를 극복하고자 3D Gaussian을 사용하여 장면을 명시적으로 표현함으로써,
      • 단일 RGB-D 카메라로부터 고해상도의 재구성을 가능하게 합니다.
  2. 핵심 기술:

    • 3D Gaussian Splatting:
      • 3D Gaussians를 사용하여 빠른 렌더링 및 밀집 최적화를 수행
      • 이 방법은 초당 최대 400프레임의 렌더링 속도를 제공하며, 실시간으로 카메라의 위치를 추적하고 장면을 재구성할 수 있습니다.
    • Differentiable Rendering:
      • 이 기법을 통해 장면의 매개변수와 카메라의 위치를 최적화할 수 있으며,
      • 고해상도의 색상, 깊이 및 실루엣 이미지를 렌더링합니다.

1. 그림들

  • SplaTAM은 차별적 렌더링을 사용하여 명시적 볼륨 표현(3D Gaussian Splatting)을 온라인으로 최적화함으로써 이를 달성합니다.
  • 왼쪽: 우리는 훈련된 뷰(SLAM 입력) 및 새로운 뷰 카메라 프러스텀과 함께 고해상도의 3D Gaussian 지도를 보여줍니다.
  • SplaTAM은 텍스처가 없는 환경에서, 후속 카메라 간의 큰 움직임에도 불구하고
    • 센티미터 이하의 정확도로 위치 추정을 달성하는 것을 확인할 수 있습니다.
  • 이는 최신 기술의 기준으로도 추적 실패를 초래할 수 있는 매우 어려운 상황
  • 오른쪽:
    • SplaTAM은 876 × 584 해상도로 초당 400프레임(400 FPS)에서 훈련된 뷰와 새로운 뷰 모두에서 사실적인 렌더링을 가능하게 함

2. 블로그 글 설명

  • 이 논문에서는 3D Gaussian을 표현하는 방법을 더 간단하게 만들었음
  • Densification(밀집화) Rule의 차이:
    • 새로운 데이터를 추가할 때 그 데이터를 어떻게 통합할지에 대한 규칙이 다르다는 의미
    • 이 논문에서는 다른 방법으로 데이터를 더 밀집시키는 규칙을 적용했을 수 있음
  • 전체 과정: 3가지 과정 수행
    • Camera Tracking(카메라 추적):
      • 카메라의 현재 위치를 추적
    • Densification(밀집화):
      • 새로운 데이터(예: 카메라가 본 새로운 장면)를 기존 데이터에 통합하여 3D 지도를 더 촘촘하게 만듦
    • Map Update(지도 업데이트):
      • 현재까지 얻은 데이터를 기반으로 3D 지도를 업데이트
  • Rendered Silhouette을 사용한 마스크 활용
    • 실루엣은 물체의 윤곽을 나타내는 이미지
    • 이 실루엣을 만들어서 마스크로 활용하는데,
      • 이는 특정 영역만을 선택적으로 처리하거나 분석하는 데 사용
    • 예를 들어, 카메라가 본 장면에서 중요한 부분만 선택적으로 분석하거나 재구성할 수 있습니다.
profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글