[논문리뷰] SphereFormer, CVPR 2023

HEEJOON MOON·2025년 5월 15일

3D Object Segmentation 3D object detection LiDAR 논문리뷰

Overview

LiDAR 센서로 취득한 point cloud는 point distribution 문제, 즉 가까운 점일수록 dense하고 먼 점일수록 sparse하다는 문제가 있다. 기존의 Voxel기반의 SparseConv 방식은 균일하게 공간을 분할하므로, 먼 점들이 속해있는 voxel안에는 sparse한 points만 존재하여, 작은 receptive field를 가짐. 본 논문에서는 기존의 cubic window 대신 radial window를 사용하여 가까운 점과 먼 점을 모두 포함하는 window 기법을 제시. 이를 위해 구면 좌표계로 표현한다. 기존 SpaseConv (cubic window)보다 좋은 성능을 달성하였다고 한다.

Problem

LiDAR로 취득된 3D 포인트 클라우드는 공간적 불균형, 특히 가까운 영역은 조밀하고 먼 영역은 희소한 문제를 지님.
기존 SparseConv 방식은 Euclidean space(유클리드 공간)에서 포인트를 고정된 윈도우나 voxel로 나누기 때문에, 멀리 있는 희소한 포인트 간 연결이 어려움. 이는 정보 단절 (Information Disconnection) 및 수용영역 제한 (Limited Receptive Field) 문제를 초래함.
Transformer는 입력 간 순서나 공간 정보를 직접 다루지 못하기 때문에, postional encoding이 필요함. 기존의 uniform interval을 기반으로 radius를 분할하는 것보다는 exponential interval을 사용함으로써, 희소 영역에 대한 구별력을 높임.
기존에는 모든 포인트별로 동일한 attention weight를 줌으로 인해 표현력이 떨어짐. 따라서 radial window내에 있는 모든 points의 맥락을 추가해야 함.

Solution from the paper

1) Radial Window: 기존의 voxel과 같은 cubic window보다는 구면 좌표계 기반의 radial window를 사용하여, 멀리있는 점과 가까운 점들이 하나의 window안에 포함될 수 있도록 함. Radius(r), 방위각, 고도로 parameterization 진행.
2) Exponential splitting:

위 그림처럼 균등한 r로 positional embedding을 진행하면 LiDAR point cloud의 사거리가 넓기 때문에(100m) interval이 커지므로, 꽤 떨어진 key1, key2의 점이 같은 window index를 지니는 문제 발생. 따라서 exponential 하게 r의 interval을 정하여 positional embedding을 수행하였다고 함.
3) Dynamic Feature Selection:

Radial window를 통해 "global-like"한 radial window 내 모든 포인트들의 global feature와 cubic window를 통해 얻은 local feature을 각각의 layer를 통과시켜 concatenate한 이후, Linear layer를 진행시켜 최종 feature z를 adaptive하게 획득함.