Garment3DGen: 3D Garment Stylization and Texture Generation[2025 3DVision]

이한결·2025년 6월 25일

Input으로 Image혹은 Text로 내가 원하는 형태의 옷을 넣으면 해당 input을 기반으로 사람이 옷을 입고 있는 결과가 나오는 모델입니다. 3D Deformation을 궁금해하던 중 아이디어를 가져올 수 있을거같아서 Deformation 부분을 중심적으로 읽어보도록 하겠습니다.

Methodology

Target Geometry Generation

이 부분에서 어떻게 입력이미지의 신호를 잘 이용해서 Deformation을 진행할 수 있는지 설명합니다. 간단하게 요약하면 입력 이미지로부터 3D Geometry guidance 값인 $M_{guidance}(I)$ 를 생성하고, 이를 deformation 대상이 되는 base meh $M_{in}$ 을 향해 supervise하는 것 입니다.

Textdeformer: Geometry manipulation using text guidance 논문에서는 하나의 이미지를 기반으로 3D를 Deformation했는데 이럴 경우 단순히 CLIP 만을 이용하기 때문에 제약이 부족하고, 결과가 어색하거나 과도하게 변형되고, 미세한 디테일을 놓치게 됩니다. 따라서 Zero123++나 Wonder3D를 이용해서 새로운 시점의 6개 RGB와 normal을 생성한 뒤, 이를 기반으로 LRM(Large Reconsturction Model)을 이용해서 3D Pseudo Ground-Truth를 생성한 후 이를 기반으로 Deformation을 진행하는 것 입니다.

Topology-Preserving Deformations

한마디로 요약하자면 입력 base mesh $M_{in}$ 에 대해 topology를 보존하면서 변형하려면, 삼각형 단위의 미세한 변형을 매끄럽게 이어주는 방식이 필요합니다. 이를 위해 Neural Jacobian Fields (NJF) 기법을 사용해 per-triangle Jacobian을 도입하고, 최적화 과정에서 이들 Jacobian이 나타내는 target 변형을 따르는 deformation map Φ를 계산합니다.

조금 더 자세히 설명하자면 Topology를 바꾸지 않기 위해 vertex 단위가 아니라 삼각형 단위로 deformation을 정의하고 이 deformation은 per-triangle Jacobian으로 표현됩니다. 그리고 이 Jacobian들이 나타내는 변형을 반영하는 전체 mapping 함수가 deformation map Φ이고 이는 Poisson 최적화 방식으로 진행됩니다.

Deformation map은 위와 같은 수식을 통해서 구할 수 있고, 여기서

$\nabla \Phi|_{t_i}$ : 삼각형 $t_i$ 에서의 실제 변형의 Jacobian
$J_i$ : 우리가 설정한 목표 변형 행렬
$|t_i|$ : 삼각형의 면적 (큰 삼각형의 영향력 더 큼)

3D Supervision

1차원 Chamfer Distance(CD) loss를 통해서 최종 출력되는 Mesh가 pseudo-ground-truth mesh의 형태를 따르도록 학습합니다. Chamfer distance는 방향성이 존재하고 논문에서는 단방향으로 deformation 결과가 target을 따라가도록 유도합니다. 여기서 유도하는 값은 point cloud 간의 geometric similarity입니다.