https://arxiv.org/pdf/1812.05784.pdf
3d detection 분야의 발전 현황. 일반적인 image와 달리 3d이며 sparse 하다는 특징이 존재하여, 여러 방법 중 BEV와 3D Convolution을 사용하는 방법이 사용되고 있다. 최근 VoxelNet의 등장으로 end to end model이 등장하였고, SECOND가 속도를 많이 향상시켰으나 이는 여전히 real time task에 적용하기에 매우 느리다.(3D Convolution 때문)
PointPillars의 특징 및 장점에 대해 이야기하고 있다. 1. PointPillars는 공간을 Pillar로 나누어 이로부터 특징을 학습하는 새로운 인코더이다. 2. 이는 vertical binning을 직접 진행하지 않아도 되고, 2D Convolution에 활용할 수 있어 매우 빠르고 효율적이다.

2D Convolution 연산을 위해 pseudo-image로 point cloud를 변환하는 feature encoder network이다.
point cloud → l = (x, y, z, r) , (r은 reflectance, 반사된 빛의 강도) 좌표로 구성되고 이를 pillars로 변환할 때는 z 축에 대한 limit가 없기 때문에 hyper parameter가 필요가 없다.
(D, P, N)의 사이즈 tensor로 encoding 된다.
D → pillar의 coordinate
P → 샘플 당 non-empty pillar의 개수
N →pillar 당 point의 개수
pillar → (x, y, z, r, x_c, y_c, z_c, x_p, y_p) → 9 dimension으로 encoding 된다.
c는 pillar 안의 모든 point들의 arithmetic mean(산술평균)이다.
p는 pillar의 중심 좌표 x, y
pillar의 대부분은 비어있는 상태이다.
(Voxel과 마찬가지인 상태, sparse 한 특성 때문이다.)
sample or pillar에 너무 많은 data가 있을 땐 Random Sampling을 진행하고 적을 땐 Zero Padding을 진행한다.
Batch Norm과 ReLU를 지나서 최종적으로 (C, P, N) size의 tensor를 생성한다.
그 이후 channel에 대해 max pooling을 이용해 (C, P) size tensor를 생성한다.
Encoding을 한 후에 original pillar의 위치로 feature들을 돌려놓아 (C, H, W)의 pseudo-image를 생성한다.

- pseudo-image를 high-level representation으로 바꿔주는 2D conv network이다.
- VoxelNet에서와 유사하게 여러개의 2D conv block을 지나고, 각각의 block을 deconv하여 high resolution feature들의 concatenate feature를 얻는다.

3D bounding box를 regression하는 부분이다.