Articulated objects(관절 구조 물체)는 서로 연결된 고정부위와 움직일 수 있는 가동부위로 이루어져 있으며 가동부위가 실제 움직임을 만들어 냄. (예시: 서랍, 스테이플러, 오븐, 의자...)
이러한 Articulated objects의 구조를 인식하고 이해하는 것은 로보틱스, 산업디자인, 애니메이션 등에서 아주 중요함.
Articulated object의 움직임을 분석하는 것은 로봇이 오브젝트를 더 효율적으로 조작 가능하게 하고 이를 디지털 환경에서 재현하게 되면 로봇 에이전트나 임베디드 ai가 에플리케이션에서 관절 동작을 시뮬레이션 해 볼수 있음.
이전 연구에서는 Articulated objects의 이해를 위해 3D supervision과 관절 annotation 정보를 필요로 했음. 그러나 이러한 3D ground truth는 비싸고 대규모로 사용할 수 없음. 또 다른 결의 이전 연구에서는 알려진 오브젝트 카테고리를 가정하고 각각의 카테고리를 위한 모델을 분리하여 학습함. 그러나 이러한 방법은 임의의 unseen object를 일반화 하기에는 어려움. 최근에 Ditto(3D point cloud로 부터 움직임과 부분 기하학적 예측을 위한 범주에 구애받지 않는 접근법)가 연구 되었으나 이 접근법은 unseen 오브젝트 카테고리를 일반화하기 어렵고 정밀하게 시각적인 특성을 복원하는 것을 다루지는 않는다.
우리는 articulated object의 인지가 두가지 하위 문제인 재구성과 움직임 분석을 수반한다는 것을 발견하였다. 이 둘은 서로 밀접하게 연관되어 있는데 복잡한 기하학적인 구조를 이해하는 것은 움직임을 분석하기 더 쉽게 만들고 모션 파라미터를 알고 있는 것은 서로 다른 관절 상태의 관측으로부터 더 나은 재구성을 위한 단서가 된다. 우리의 통찰은 자연스럽게 상호연관된 articulated object 인지를 활용하여 3Ddata와 모션 파라미터 정보를 직접 제작하는 것에 의존하는 것을 하지 않게 한다.
이 논문에서 우리는 articulated object의 재구성과 모션 분석을 결합한 자기지도 학습방법 PARIS를 제안한다.
두 가지 상태의 articulated object를 관찰함으로써 정적파트와 가동파트의 shape 및 appearance을 각각 두 개의 암시적 신경 필드(NeRF)로 재구성하고 동시에 관절 운동 파라미터를 예측한다. 분리된 신경 필드는 추측된 모션 파라미터를 사용하여 합성되며 이로 오직 입력 RGB이미지만 의존하는 자기지도 학습 손실을 설정할 수 있다.
따러서 우리의 접근법은 카테고리에 구애받지 않고 감독학습을 위한 3Ddata -> (부분 세그멘테이션, 모션파라미터, 오브젝트 카테고리 시멘틱 등)을 필요로 하지 않음
이를 요약하면:
우리는 오직 두 가지 정적인 상태에서 촬영된 RGB이미지 만으로 articulated object의 part-level의 shape와 appearance과 움직임을 추정하기 위해 재구성과 움직임 분석을 결합하였다.
이를 위해서 어떠한 감독학습을 위한 3D data도 필요하지 않은 PARIS를 제시하고
이를 실제 데이터와 합성데이터에서 평가하고 이전 연구보다 얼마나 성능이 향상되었는지 입증한다.
shape = 물체의 기하구조(geometry) 어디에 어떤 구조가 있고 어떻게 생겼는지 의자의 다리, 등받이, 좌판이 어떻게 배치되고 연결되는지
실루엣만 있는 회색의 3D모델 -> shape만 있는 상태
appearance = 물체의 시각적 속성(색상, 조명반응, 질감, 재질) 보기에 어떤 느낌으로 보이는지, 나무인지 플라스틱인지, 파란색인지, 반사광이 있는지
어떤 물체의 부분의 움직임을 분석하는 것은 articulated object의 운동학을 이하기 위해 잘 확립된 문제이다. articulated object를 위한 3d 데이터와 관절 어노테이션을 더 많이 수집되면서 최근 연구는 이 문제를 3D 입력을 활용한 데이터 기반 방식으로 다루려는 경향이 있다. Screwnet은 rnn을 사용해서 part segmentation없이 일련의 depth이미지로 관절을 예측한다. 또다른 연구에서는 주어진 part segmentation을 가정하고 포인트 클라우드를 메트릭 러닝을 통해 움직임의 시퀸스에 한 클래스에 매핑함으로써 part moblility를 추정한다.
많은 방식들이 3D 형태에 대한 시맨틱 분할을 수행하기 위해 제안되었지만 얻어진 부분 분할이 moblility에 적합한 것은 아니었다. 이러한 문제를 고려해서 이후 연구에서는 움직임 기반의 부분 분할과 분석을 함께 다루는 방식으로 문제에 접근하였다. 단일 포인트 클라우드를 입력으로 받는 Shape2Motion은 카테고리 수준의 모델을 학습하기 위해 이 2문제를 지도학습 방법으로 다루는 것을 제안한다. 이 모델들은 각 카테고리마다 별개의 학습된 모델이 필요하기 떄문에 임의의 unseen object에 대해서 제한된 일반화 성능을 지닌다. 이러한 object 카테고리에 대한 의존도를 줄이기 위해 또다른 연구에서는 부분 분할과 운동계층구조를 예측하기 위해 범주 간 네트워크를 설계하였다. 또다른 연구에서는 과도하게 세분화된 3D 스캔으로부터 반 지도학습방법으로 부분 모션파라미터를 학습하였다. 다음으로는 사용자의 명령에 따라 관절을 가진 물체의 부분을 사전에 정의된 상태로 조작하는 범주에 구애 받지 않는 방식을 제안하였다.
위의 연구들은 모두 포인트 클라우드의 관절구조와 3D구조를 이해하는데 초점을 맞추고 있다. 우리의 연구는 3D 데이터나 뎁스 이미지에 비해 더 쉽게 이용가능한 RGB이미지만으로 부분수준의 shape과 appearance을 움직임 추정과 함께 공동으로 복원한다. 가장 유사한 연구는 Ditto로 이 또한 두 가지 상태의 객체를 입력으로 관찰하여, 부분 수준의 표면과 관절 파라미터를 생성한다. 또다른 동시연구로는 CARTO가 있는데 이는 스테레오 이미지로 부터 추정한 움직임을 기반으로 객체의 표면을 재구성한다. 이들과 주요한 차이점은 Ditto는 입력으로 3D 포인트 클라우드 쌍을 사용하지만 우리는 오브젝트의 2가지 상태의 멀티 뷰 RGB 이미지들 2세트를 사용하고 Ditto는 오직 geometry만 생산하고 CARTO는 부분 재구성을 수행하지 않으며 둘 다 3D 데이터와 관절 어노테이션을 필요로하는 지도학습이지만 우리의 접근법은 오직 이미지만을 필요로하는 자기지도 학습이다.
신경 암시적 모델은 그들의 연속적이며 위상에 구애받지 않는 표현 덕분에 점점 인기를 끌고 있다.
mesh -> 정점(vertex)와 삼각형(face)로 이루어진 이산적인 구조 -> 해상도가 고정되어있고 이상으로 확대하면 계단현상(aliasing)이 생김
암시적 표현-> 3D공간안에서 임의의 좌표 x, y, z를 넣으면 그 지점의 색, 밀도를 연속적으로 계산함 -> 확대해도 깨지지않고 super resolution 가능
topology free -> 메시기반 표현은 정점이 어떻게 연결되어있는지 명시적으로 정의해야함 반면 암시적 모델은 오직 공간의 함수겂으로 물체를 정의 0보다 크면 물체 나머지는 빈공간으로 처리함
초기의 연구에서는 암시적 함수를 이용하여 articulated object의 shape와 appearance를 모델링 하기위해 3d 감독 정보를 필요로 함 예를 들어 인체는 NASA 일반적인 articulated object는 A-SDF가 이에 해당함. 미분가능한 랜더링 기술의 성공과 함께 shape과 appearance 모델들은 멀티뷰 RGB이미지들로 학습 가능하게 되었다. 이 기술은 정적인 장면, 강체로 움직이는 객체(객체는 움직이지만 자체의 변형이 없는 경우), 변형 가능한 객체, 시간에 따라 변화하는 장면의 재구성을 가능하게 하였다. A-SDF에 이어서 다음 연구에서는 일반적인 articulated object를 위한 범주 수준의 appearance와 shape 표현을 제안한다. 관절구조를 암시적으로 담은 잠재벡터를 네트워크의 입력으로 상요하면 ] 네트워크는 unseen 객체의 shape와 appearance을 복원할 수 있으며 잠재공간 내에서 보간 함으로써 다양한 관절 상태도 생성할 수 있다. 비슷하게 추가 감독학습 데이터로 2D 분할 맵과 관절 어노테이션을 이용한 CLA-NeRF는 추가적인 2D 분할을 출력하고 후처리로 역 랜더링을 통해 부분 자세를 추정한다.
위에서와 달리 우리 연구에서의 차별점은 객체의 범주를 알지 못한 상태에서도 shape과 appearance 모두에서 관절 부분을 분리할 수 있다는 점이다. 동시에 우리는 end-to-end 방법으로 모션파라미터를 추정하고 articulated object를 unseen상태에서 명시적으로 조작할 수 있게한다. STaR등 에서는 움직임을 단서로 사용하여 두 구성요소를 분리하기 위해 구별된 영역을 학습하는 동일한 전략을 공유하지만 그들은 RGB 비디오로부터 동적인 장면을 모델링하는 것을 집중하지만 우리는 정적인 서로 다른 상태의 오브젝트 RGB이미지 2세트를 사용한다. 실질적으로 일반적인 관절 구조를 가진 물체에 대한 서로 다른 관찰은 사람의 개입 없이도 자연스럽게 나타나기 때문에 우리의 방법은 더 확장 가능성이 높다. 이러한 설정은 더 희소하고 시각적이든 상태적이든 더 많은 가려짐이 발생하므로 더 많은 도전과제를 유발한다.
카테고리를 모르는 articulated object하나를 생각해볼 때 우리의 입력은 시작상태 t=0과 종료상태 t=1 2개의 임의 관절상태로 구성된다. 각 상태 t에서 해당 상태에 대한 멀티뷰 RGB이미지 집합 I와 이에 대응하는 카메라 파라미터가 주어진다. 우리는 이 두 관찰쌍 중에서 단 하나의 부분만 움직인다고 가정하며 이중 움직이는 부분을 movable part, 정지해있는 부분을 static part 라고 부른다. 우리의 첫번째 목표는 geometry와 appearance 측면에서 이 두 부분을 분리하는 것이다. 이렇게 부분 수준에서 shape와 appearance 모델을 갖추면 우리는 해당 객체를 보지 못한 새로운 상태로 관절 조작을 통해 변형할 수 있으며 임의의 시점에서도 새로운 상태의 객체를 랜더링 할 수 있게 된다.
우리의 두번째 목표는 관절의 움직임을 예측하는 것이다. 먼저 우리는 movable part의 움직임이 회전운동과 병진운동 중 하나만 수행한다고 가정한다. 운동 유형은 운동 파라미터(관절 축과 관절 상태)를 추정하기 위해 필요하다. 만약 운동 유형이 주어지지 않은 경우에는 SE(3)group으로서의 변환을 먼저 최적화하여 전처리 단계에서 운동 유형을 분류한다. 일단 운동 유형이 회전과 병진 중에 결정이 되면 해당 유형에 따라 관절을 파라미터화 한다. 예를 들어 회전운동의 경우 3차원의 회전 중심점(pivot point)p와 4차원의 단위 쿼터니언 형태로 회전을 표현한다. 직선 이동 관절(prismatic joint)의 경우 조인트 축(이동 방향벡터)을 단위벡터 a로 표현하고 이 축을 따라 이동하는 거리 d를 함께 사용해 파라미터화 한다. 이제 위 파라미터를 이용하여 회전을 위한 함수 와 이동을 위한 함수를 정의 할 수 있다. 주어진 운동 유형에 따라 이 두함수 중 하나 가 선택되어 학습 파이프라인에 연결되며 모션파라미터를 공동으로 최적화 하게 된다.
우리의 방법은 end-to-end 프레임워크로 객체단위의 관측으로부터 부분 수준의 표현과 관절 예측을 결합하여 완전한 자기지도 학습으로 학습을 수행한다. 우리는 움직임을 단서로 활용하여 고정된 부분(static part)와 움직이는 부분(movable part)를 분리한다. 두 상태간 불일치는 움직임 때문이므로 즉 와 의 차이는 motion때문이므로 입력상태 에서 기준상태 로 이동하는 부분을 정합registration)시키는 과정을 통해 모션파라미터를 최적화한다. 이 registration과정에서 변환과 잘 일치하는 부분은 이동가능한 부분(movable part)으로 추출되며 움직이지 않고 남는 부분은 정적인 부분(static part)로 추출된다. 즉 움직인 부위를 찾아(등록) 그 부위의 변환을 최적화하고, 잘 맞는 부위 = movable, 안 맞는 부위 = static 으로 자동 분리한다.
우리는 학습과정에서 정적인 필드(static field)와 동적인 필드(mobile field)를 함꼐 학습하며 이 두 필드는 Instant-NGP를 기반으로 설계된 같은 네트워크 구조를 공유함. 또한 각 필드를 고정된 장면(static scene)을 모델링하도록 설계했기 때문에 각 필드는 오직 하나의 파트, 하나의 상태만을 표현함. 즉 어떤 필드도 입력으로 상태 t에 조건화 되어있지 않음-> 상태에 따라 필드가 바뀌지 않음 고정
이동가능한 부분(movable part)의 연속적인 움직임을 모델링하지 않음->왜? 학습에서 2개의 이산적인 상태를 사용하므로 중간 상태는 관찰 불가능 -> 움직이는 방향(축)과 양을 학습 -> 이후 중간상태는 추정된 motion parameter를 기반으로 조절해서 생성.
우리는 두 state의 모션관계를 field안에 dynamics를 암묵적으로 내장하는 방식이 아니라 명시적 변환함수의 학습을 통해 설계하여 기준상태(canonical state)를 두 입력상태로 매핑 함. -> 동적장면(dynamic scene)을 reconstruction하는 다른 연구들과는 차별화 됨. 이론적으로 어느 상태t든 movable part로 선택할 수 있음(canonical state) 하지만 입력되는 두 상태의 loss의 gradient신호가 균형있게 역전파되도록 위해 를 movable part의 field에서 학습할 기준상태로 사용함.
Static field 는 어떠한 상태 에서도 항상 정적인 부분(static part)를 표현하며 Mobile field 은 기준상태 에서의 이동가능한 부분(movable part)를 표현함.