https://arxiv.org/pdf/2110.14217.pdf
한계: transparent object를 잡는 것은 로봇에게 어려운 문제이다(using depth camera or something)
저자들은 NeRF(neural radiance fields)를 활용해 정확도를 올림
빛을 활용해 specular reflections를 만들어 depth map의 퀄리티를 향상
real-world datasets도 구축
Limitation: Grasping a transparent object is a hard problem for a robot (using a depth camera or something)
The authors utilize neural radiance fields (NeRF) to improve accuracy.
Utilize light to create specular reflections to improve the quality of depth maps
Build real-world datasets
일반적 depth camera는 모든 방향으로 균일하게 반사한다고 가정하지만 transparent한 물체는 그렇지 않다. Dex-NeRF는 이를 해결하기 위한 방법이다.

NeRF는 복잡한 장면의 뷰를 rendering하기 위해 제시되었지만, 새로운 장면의 geometry를 reconstruct할 수 있다.
intrinsics와 extrinsics이 input으로 활용(fixed work cell 지니므로 extrinsics 쉽게 구할 수 있다)
(1) Integration of NeRF with robot grasp planning
(2) A transparency-aware depth rendering method for NeRF
(3) Experiments on synthetic and real images showing NeRF with Dex-Net generates high-quality grasps
(4) Synthetic and real image datasets with transparent objects for training NeRF models.
로봇에서 투명한 물체를 감지하고 인식하기 위한 최근의 접근 방식은 데이터 기반 방식에 의존
RGB 이미지에서 물체 감지를 위한 CNN, segmentation을 위한 transformer based models, pose estimation을 위한 딥러닝 모델 사용이 포함
일부 방법은 3D 포즈 추정을 통합하거나 raw images에서 직접 도출
이러한 방법은 large annotated datasets 요구,
Dex-NeRF는 사전 datasets가 필요하지 않음
NeRF는 반사 및 반사 등 non-Lambertian effects를 표현할 수 있는 신경망
투명한 물체의 형상을 캡처하는 데 유용
하지만 NeRF는 훈련 속도가 느리고 데이터 효율성이 낮음.
Neural Radiance Fields (NeRF) is a neural network that can represent non-Lambertian effects such as specularities and reflections, making it useful for capturing the geometry of transparent objects. However, NeRF is slow to train and has low data efficiency. Plenoctrees and JaxNeRF have been proposed to address these issues, achieving significant speedup in training over NeRF.
기존 방식은 물체 모양을 분석하여 pose 결정
데이터 기반 방식은 사전 학습 진행
본 논문은 high quality depth map을 NeRF로 만들어 Dex-Net에 전달하는 방식을 제안
가정: 카메라는 dixed known locations에 있고 로봇이 카메라를 조정해 원하는 image를 얻을 수 있다.
학습하는 동안 NeRF는 공간의 각 점에 대한 밀도 값을 학습하여 점의 투명도를 나타냄
이는 공간 위치가 color of ray에 얼마나 기여하는지를 학습하는 데 도움
NeRF는 각 밀도 값을 occupancy 확률로 변환
작성자는 raw density 값을 사용하여 공간의 한 지점이 점유되고 있는지 여부를 결정
두 가지 깊이 reconstruction 후보를 사용하여 깊이 이미지를 생성. 첫 번째 방법은 카메라 광선을 따라 샘플링된 점을 NeRF와 동일하게 렌더링하고 밀도 값을 occupancy 확률로 변환한 다음 이를 변환하여 심도를 렌더링. 하지만 이 방법은 투명한 오브젝트에 대해 노이즈가 많은 depth map을 생성.
두 번째 방법은 투명도를 인식하여 광선을 따라 밀도 값이 고정 임계값 이상인 첫 번째 샘플을 검색합니다. 그런 다음 깊이는 해당 샘플의 거리로 설정됩니다. 다양한 임계값을 탐색할 수 있으며, 저자들은 실험에서 임계값을 0.8로 설정.
투명한 물체의 visibility는 NeRF가 geometry를 학습하는 데 매우 중요. 투명한 물체는 특정 각도에서 볼 때 표면에 흰색 점으로 나타나는 specular reflection을 생성. NeRF는 이러한 점에 대해 완전 불투명과 완전 투명 사이의 밀도 값을 학습하며, 조명을 추가로 배치하면 이를 개선. 카메라가 투명한 물체의 specular reflection을 볼 수 있는 각도가 더 많이 생성
이 연구는 NeRF와 추가 조명을 사용하여 정반사를 생성하여 투명한 물체의 형상을 복구하는 방법을 제안. 이렇게 복구된 geometry는 로봇 조작 작업을 위한 그립을 계산하는 데 사용. 합성 및 실제 데이터 세트 완성. 저자들은 로봇 워크셀에서 오버헤드 카메라 grid를 실험. 향후 연구에는 NeRF 모델에 필요한 긴 훈련 시간을 해결하고 함