논문 정보
Title: PARTE: Part-Guided Texturing for 3D Human Reconstruction from a Single Image
Authors: Hyeongjin Nam, Donghwan Kim et al. (Seoul National Univ. & Korea Univ.)
Conference: ICCV 2025
Project Page: https://hygeniel228.github.io/PARTE/

이 논문을 이해하기 위해서는 Invisible Region Reconstruction의 난이도와 Semantic Conditioning의 중요성을 이해해야 한다.
단 한 장의 사진(Front-view)으로 3D를 만들 때, 등(Back-view)이나 팔 안쪽은 정보가 전혀 없는 미지수(Unknown Variable)다.
최근에는 2D Diffusion Model의 강력한 Prior를 3D로 가져오는 SDS Loss를 많이 쓴다.

하지만 기본 SDS는 텍스트 프롬프트()만 조건으로 받는다. "A man wearing a red shirt"라고 줬을 때, 셔츠가 어디까지인지 Diffusion 모델은 정확히 모른다. 따라서 Spatial Constraint(공간적 제약)를 추가로 주어야 정확한 텍스처링이 가능하다. 이 논문은 그 제약 조건을 3D Part Segmentation으로 정의했다.

SDS Loss 수도코드 (NeRF 기준)
1~3 : NeRF generator, optimizer, diffusion model을 초기화하고 로드한다.
5 : diffusion model의 time step t가 uniform하게 정의된다.
6 : 시간 t에 따라 noise의 정도를 결정하는 alpha와 sigma가 정의된다.
7 : 이미지 크기만큼 가우시안 분포로 노이즈를 만든다.
8 : NeRF를 통해 이미지 x를 만든다.
9 : reparameterize trick을 통해 가우시안 확률분포를 계산 가능한 수식으로 만든다. z_t로 계산된다.
10 : z_t와 text embedding y, t를 입력으로 U-Net을 통과한다.
11 : 위에서 언급한 아래 수식을 계산한다. Diffusion Model은 업데이트 안하기 때문에 stopgradient가 사용된다.

PARTE의 파이프라인은 Geometry Reconstruction Part Segmentation Part Texturing의 순차적(Sequential) 구조를 가진다.
먼저 입력 이미지로부터 Texture가 없는 Base Mesh ()를 생성한다. 이 논문에서는 SOTA인 TeCH를 사용했지만, 어떤 Reconstruction 모델을 써도 무방(Model-Agnostic)하다. 중요한 건 텍스처를 입히기 전의 "형태"다.

이 모듈의 목표는 3D Mesh의 각 Vertex에 개의 라벨(Face&Hair, Upper, Lower, Footwear, Others)을 할당하는 것이다.
Why Transformer?
SegmentNet은 두 가지 Branch(Normal Map branch, Input Image branch)를 가진다. Normal Map은 "옷의 주름/경계" 같은 기하학적 정보를 주고, Input Image는 "옷의 스타일" 같은 의미론적 정보를 준다. 이 둘을 Self-Attention으로 융합(Fusion)하여 보이지 않는 뒷면의 파트까지 정확히 추론한다.
이제 구획이 나눠진 Mesh() 위에 색을 입힐 차례다. 저자들은 이를 위해 PartDiffusion이라는 커스텀 Diffusion 모델을 설계했다.
Conditioning Logic:
기존 Stable Diffusion에 Fusion Layer를 추가하여 다음 세 가지 정보를 동시에 주입한다.
BLIP으로 추출한 캡션 (Global Semantic).Optimization with SDS:
: Front-view에서는 원본 이미지와 L2 Loss로 픽셀을 맞춘다.
: 다른 뷰(Side, Back)에서는 PartDiffusion이 예측한 Noise 분포를 따르도록 최적화한다.
여기서 핵심은 PartDiffusion이 "Part Map"을 조건으로 받기 때문에, 렌더링된 뷰에서 상의 영역에는 무조건 상의 텍스처만 생성하도록 강제된다는 점이다. 이를 통해 Texture Bleeding을 원천 차단한다.
THuman2.1, HuMMan 데이터셋을 사용하여 정량적/정성적 평가를 진행했다.
가장 주목할 지표는 Part IoU와 LPIPS다.
| Method | PSNR | LPIPS | Part IoU |
|---|---|---|---|
| TeCH (SOTA) | 21.089 | 0.108 | 0.588 |
| HumanRef | 21.302 | 0.113 | 0.576 |
| PARTE (Ours) | 22.175 | 0.096 | 0.641 |


PARTE는 "텍스처링은 기하학적 구조에 종속되어야 한다"는 직관을 모델링한 연구다.
1. Divide and Conquer: 문제를 Segmentation과 Texturing로 쪼개서 풀었다.
2. Explicit Guidance: Diffusion Model의 생성 능력을 믿되, Part Map이라는 강력한 제약 조건을 걸어 Hallucination을 막았다.
Geometry Reconstruction이 망가져서 Mesh가 뭉개지면, PartSegmenter도 뭉개지고, 결국 PartTexturer도 망한다. 즉, Error Propagation의 위험이 있지 않을까?앞으로 3D Human Generation 연구를 할 때, 단순히 RGB값만 예측하는 게 아니라 Semantic Map을 함께 예측하는 것이 필수가 될 것 같다는 생각이 든다.
References