[논문리뷰] SphereFormer, CVPR 2023

HEEJOON MOON·2025년 5월 15일

Overview

LiDAR 센서로 취득한 point cloud는 point distribution 문제, 즉 가까운 점일수록 dense하고 먼 점일수록 sparse하다는 문제가 있다. 기존의 Voxel기반의 SparseConv 방식은 균일하게 공간을 분할하므로, 먼 점들이 속해있는 voxel안에는 sparse한 points만 존재하여, 작은 receptive field를 가짐. 본 논문에서는 기존의 cubic window 대신 radial window를 사용하여 가까운 점과 먼 점을 모두 포함하는 window 기법을 제시. 이를 위해 구면 좌표계로 표현한다. 기존 SpaseConv (cubic window)보다 좋은 성능을 달성하였다고 한다.

Problem

  • LiDAR로 취득된 3D 포인트 클라우드는 공간적 불균형, 특히 가까운 영역은 조밀하고 먼 영역은 희소한 문제를 지님.
  • 기존 SparseConv 방식은 Euclidean space(유클리드 공간)에서 포인트를 고정된 윈도우나 voxel로 나누기 때문에, 멀리 있는 희소한 포인트 간 연결이 어려움. 이는 정보 단절 (Information Disconnection) 및 수용영역 제한 (Limited Receptive Field) 문제를 초래함.
  • Transformer는 입력 간 순서나 공간 정보를 직접 다루지 못하기 때문에, postional encoding이 필요함. 기존의 uniform interval을 기반으로 radius를 분할하는 것보다는 exponential interval을 사용함으로써, 희소 영역에 대한 구별력을 높임.
  • 기존에는 모든 포인트별로 동일한 attention weight를 줌으로 인해 표현력이 떨어짐. 따라서 radial window내에 있는 모든 points의 맥락을 추가해야 함.

Solution from the paper

  • 1) Radial Window: 기존의 voxel과 같은 cubic window보다는 구면 좌표계 기반의 radial window를 사용하여, 멀리있는 점과 가까운 점들이 하나의 window안에 포함될 수 있도록 함. Radius(r), 방위각, 고도로 parameterization 진행.

  • 2) Exponential splitting:

    위 그림처럼 균등한 r로 positional embedding을 진행하면 LiDAR point cloud의 사거리가 넓기 때문에(100m) interval이 커지므로, 꽤 떨어진 key1, key2의 점이 같은 window index를 지니는 문제 발생. 따라서 exponential 하게 r의 interval을 정하여 positional embedding을 수행하였다고 함.

  • 3) Dynamic Feature Selection:

    Radial window를 통해 "global-like"한 radial window 내 모든 포인트들의 global feature와 cubic window를 통해 얻은 local feature을 각각의 layer를 통과시켜 concatenate한 이후, Linear layer를 진행시켜 최종 feature z를 adaptive하게 획득함.

Few remarkable points

  • 구면 좌표계 표현 방식을 통해 LiDAR point cloud representation과 이에 맞는 positional embedding 기법은 기억해둘 만 함.
  • Global+Local feature fusion이 성능 boost.

Results

  • 3D Object Detection, Segmentation에서 SOTA 성능을 보였다고 함.

References

profile
Robotics, 3D-Vision, SpatialAI에 관심이 있습니다

1개의 댓글

좋은 리뷰 잘 보고 갑니다

답글 달기