Expressive Whole-Body 3D Gaussian Avatar

상솜공방·2025년 9월 23일

논문 리뷰

목록 보기
39/49

논문 링크: https://arxiv.org/pdf/2407.21686

1. Introduction

생략

2. Related Works

생략

3. ExAvatar

3.1. Accurate co-registration of SMPL-X

본 섹션은 SMPL-X 파라미터들을 단일 시점 비디오에 정확하게 정렬(co-registration)하는 과정에 대해 설명한다. 이는 특히 신체, 손, 얼굴과 같은 인체 부위들의 표현 다양성 및 3D 관측 데이터의 부족과 같은 문제를 해결하기 위한 핵심 단계이다.

  • 비디오 데이터 가정 및 전처리:

    • 이 연구는 'in-the-wild' 환경에서 촬영된 약 30초 길이의 단일 인물 비디오를 가정한다. 이 비디오들은 자연스러운 배경을 포함하고 있다.
    • ExAvatar 학습 전에, 다음의 전처리 단계를 거친다:
      • SMPL-X 및 2D Pose 추정: 기존의 Hybrid-X와 같은 SMPL-X regressor와 MMPose와 같은 2D pose estimator를 사용하여 모든 비디오 프레임에 대해 초기 SMPL-X 파라미터와 2D pose를 추정한다.
      • 파라미터 정렬: 추정된 2D pose에 맞춰 SMPL-X 파라미터들을 추가로 정렬한다. 이 파라미터들은 3D pose (θR55×3\theta \in \mathbb{R}^{55 \times 3}), shape parameter (βR100\beta \in \mathbb{R}^{100}), facial expression code (ψR50\psi \in \mathbb{R}^{50}), 그리고 3D translation (tt)을 포함한다.
      • Shape Parameter 공유: 모든 프레임이 동일 인물에서 왔으므로, shape parameter β\beta는 모든 프레임에서 공유된다.
  • 정확한 공동 정렬의 도전 과제:

    • 전신 아바타를 모델링할 때 발생하는 고유한 도전 과제는 신체, 손, 얼굴의 정확한 공동 정렬(accurate co-registration)이다.
    • SMPL-X 모델 자체의 제한된 표현력과 신체 정렬의 정확도는 손과 얼굴의 정렬에 부정적인 영향을 미칠 수 있으며, 이는 전반적인 공동 정렬 정확도를 저해한다.
  • 최적화 가능한 오프셋 도입:

    • 정확한 신체, 손, 얼굴의 공동 정렬을 달성하기 위해, 본 연구는 두 가지 최적화 가능한 오프셋을 도입한다. 이 오프셋들은 초기에는 0으로 설정되며, 모든 프레임에 걸쳐 공유된다.
    • 이 오프셋들은 개인(ID)-의존적이며, 포즈나 표정에는 의존하지 않는다. 따라서 Linear Blend Skinning (LBS)을 수행하기 전에 SMPL-X의 T-pose 템플릿 메시에 추가된다.
    • Joint Offset (ΔJ\Delta J):
      • 목적: SMPL-X의 T-pose 공간에서 조인트에 추가되는 오프셋이다. 특히 SMPL-X의 shape parameter가 3D 손 골격에 대한 커버리지가 제한적이기 때문에 손을 더욱 완벽하게 피팅하는 데 매우 유용하다 (Fig. 2 왼쪽 참조).
      • 영향: 3D 골격과 표면 모두에 영향을 미친다.
    • Face Offset (ΔVface\Delta V_{\text{face}}):
      • 목적: SMPL-X의 T-pose 공간에서 얼굴 영역의 각 정점(per-vertex)에 대한 오프셋이다.
      • 최적화 과정:
        • 우선 DECA를 실행하여 3D face-only 모델인 FLAME [27]을 얼굴의 2D pose와 이미지에 피팅한다.
        • 이후, face offset ΔVface\Delta V_{\text{face}}를 최적화하여 SMPL-X의 3D 얼굴 정점과 face offset의 합이 피팅된 FLAME 정점에 가깝도록 만든다.
        • 합리성: FLAME과 SMPL-X의 얼굴 영역은 정확히 동일한 토폴로지를 가지므로, 이 과정이 가능하다. 얼굴 전용 모델은 전신 모델보다 shape space에서 더 높은 표현력을 가지며, 얼굴 전용 모델의 정렬은 신체 정렬의 영향을 받지 않는다는 장점이 있다.
      • 효과: Fig. 2 오른쪽과 Fig. 3에서 face offset의 효과를 확인할 수 있다.
  • 예시: '철수'의 아바타 생성

    '철수'라는 가상의 인물이 있고, 우리는 그의 짧은 모노큘러 비디오를 이용해 그만의 개성 넘치는 3D 아바타를 만들고자 한다.

    1. 기본 SMPL-X 모델 정렬 (Initial SMPL-X Registration)

      • 초기 상태: 먼저, 철수의 비디오에서 각 프레임에 대해 SMPL-X 파라미터(자세, 표정, 형상)를 추정한다. SMPL-X는 대략적으로 철수의 몸 포즈와 표정을 따라가지만, '평균적인' 사람을 기준으로 만들어졌기 때문에 철수만의 미세한 특징, 예를 들어 그의 손가락 길이, 콧대 높이, 특정 얼굴 곡선 등을 완벽하게 반영하지 못할 수 있다.
    2. Joint Offset (ΔJ\Delta J) 적용 예시: '철수'의 독특한 손 모양 보정

      • 문제점: 철수는 평균적인 사람보다 손가락이 약간 더 길고 손바닥이 넓은 특징을 가지고 있다고 가정해보자. 기존 SMPL-X의 'shape parameter' (β\beta)만으로는 이러한 미세한 손 골격 구조의 차이를 완벽하게 표현하기 어렵다. 그 결과, SMPL-X 메쉬를 렌더링했을 때, 철수의 실제 손 모양과 다소 이질감이 느껴질 수 있다.
      • ΔJ\Delta J의 역할: 이때 Joint Offset ΔJ\Delta J가 등장한다. ΔJ\Delta J는 SMPL-X의 'T-pose' 상태(기준 자세)에서 각 조인트(관절) 위치에 추가되는 고정된(ID-dependent) 3D 오프셋이다.
        • 적용 과정:
          1. 철수의 비디오를 분석하여, 그의 실제 손 골격이 SMPL-X의 평균 골격과 어떻게 다른지 학습한다.
          2. 이 학습을 통해, 철수의 손가락 관절들이 T-pose 상태에서 평균보다 어느 방향으로 얼마나 더 움직여야 그의 실제 손 모양에 더 가까워지는지를 ΔJ\Delta J로 계산한다. (예: 각 손가락 관절의 끝 부분이 Z축 방향으로 0.5cm 더 길어져야 한다).
          3. 이렇게 얻은 ΔJ\Delta J는 철수만의 고유한 손 골격 특징을 반영하며, 이는 모든 포즈와 표정에 관계없이 항상 T-pose 골격에 먼저 적용된다.
        • 결과: ΔJ\Delta J가 적용된 후, SMPL-X 모델은 철수만의 손 골격 구조를 더욱 정확하게 표현하게 된다. 이제 철수가 손을 쥐거나 펴는 어떤 포즈를 취하더라도, 그의 실제 손 모양에 더 가까운 결과물을 얻을 수 있다. 이는 3D 골격뿐만 아니라 그 골격에 스키닝된 메쉬 표면에도 영향을 미쳐 전체적인 손의 형상이 개선된다.
    3. Face Offset (ΔVface\Delta V_{\text{face}}) 적용 예시: '철수'의 개성 있는 얼굴 윤곽 보정

      • 문제점: 철수는 콧대가 높고, 입술의 곡선이 매우 독특하며, 광대뼈가 약간 돌출된 특징을 가지고 있다고 가정해보자. SMPL-X의 얼굴 모델은 파라메트릭하지만, 전신 모델의 일부이므로 이러한 세부적인 얼굴 형상이나 미세한 질감을 완벽하게 포착하기는 어렵다. 특히, 전신 정렬 과정에서 얼굴의 디테일은 희생될 수 있다.
      • ΔVface\Delta V_{\text{face}}의 역할: Face Offset ΔVface\Delta V_{\text{face}}는 SMPL-X의 얼굴 영역 각 정점(vertex)에 추가되는 고정된(ID-dependent) 3D 오프셋이다. 이는 얼굴 전용 모델인 FLAME [27]의 정교함을 활용하여 SMPL-X 얼굴을 철수에게 맞춤화한다.
        • 적용 과정:
          1. FLAME 피팅: 먼저 DECA와 같은 전문적인 얼굴 모델 피팅 도구를 사용하여 철수의 비디오에서 그의 얼굴 영역에 FLAME 모델을 매우 정밀하게 피팅한다. FLAME은 얼굴 전용 모델이므로, 철수의 콧대 높이, 입술 곡선, 광대뼈 등 미세한 얼굴 형상을 훨씬 더 정확하게 포착한다. (이때 FLAME은 철수의 '중립적인' 표정 상태의 얼굴 형상을 기준으로 피팅된다.)
          2. ΔVface\Delta V_{\text{face}} 계산: SMPL-X의 얼굴 메쉬(T-pose, 중립 표정 상태)와 정밀하게 피팅된 FLAME의 얼굴 메쉬를 비교한다. 두 메쉬는 토폴로지가 같으므로, 각 정점의 위치 차이를 계산할 수 있다. 이 차이가 바로 ΔVface\Delta V_{\text{face}}가 된다. (예: SMPL-X의 코끝 정점은 FLAME 코끝 정점보다 0.3cm 낮게 표현되어 있었다면, ΔVface\Delta V_{\text{face}}는 코끝 정점에 위쪽으로 0.3cm 이동하는 오프셋을 부여한다.)
          3. ΔVface\Delta V_{\text{face}} 적용: 이렇게 계산된 ΔVface\Delta V_{\text{face}}는 철수만의 고유한 얼굴 형상을 반영하며, 이는 모든 포즈와 표정에 관계없이 SMPL-X 얼굴 메쉬의 T-pose 정점에 먼저 추가된다.
        • 결과: ΔVface\Delta V_{\text{face}}가 적용된 후, SMPL-X의 얼굴 메쉬는 철수만의 콧대, 입술, 광대뼈 등 세부적인 얼굴 윤곽을 훨씬 더 정확하게 표현하게 된다. 이제 철수가 웃거나 찡그리는 등 어떤 표정을 짓더라도, 그의 실제 얼굴 특징이 반영된 자연스러운 표정 변화를 기대할 수 있다.
profile
상어 인형을 좋아하는 사람

0개의 댓글