
해당 텍스트는 InsTaG(Instant Talking Head Synthesis with Gaussian Splatting) 프레임워크의 핵심 구성 요소 중 하나인 Identity-Free Pre-training (신원 독립적 사전 학습) 전략에 대해 설명하고 있다. 이 전략은 몇 초 길이의 짧은 비디오만으로도 고품질의 개인화된 3D Talking Head를 빠르게 학습하기 위해 고안되었다.
배경 및 동기:
문제점: 신원 충돌 (Identity-Conflict):
해결책: Identity-Free Pre-training 전략:
InsTaG는 사전 학습된 UMF (Universal Motion Field)를 새로운 신원(identity)에 빠르고 높은 품질로 적응시키기 위해 Motion-Aligned Adaptation 전략을 제안한다. 이는 주로 세 가지 핵심 기술로 구성되어 있다.
Motion Aligner (모션 정렬기)
Motion Aligner는 다중 해상도 positional encoder ()를 통해 공간 정보를 저장하고, Gaussian primitive의 중심 가 모션 필드를 쿼리하기 전에 coordinate offset 를 예측한다. 이 오프셋은 어떤 조건(오디오, 표정)에도 독립적으로 얼굴 구조의 불일치를 보정한다.scaling factor 를 곱하여 모션 스케일을 정렬한다. intra-alignment(내부 정렬)를 돕고, 적은 수의 데이터로 미세 조정(few-shot fine-tuning)하는 동안 학습된 지식의 보존을 극대화한다.Face-Mouth Hook (얼굴-입 연결 기술)
inter-alignment(상호 정렬)를 강화하고, 적은 데이터로 인해 발생할 수 있는 불일치(misalignment) 문제를 해결하여 일반화 능력을 향상시키는 것이다.Geometry Prior Regularizer (기하학적 사전 지식 정규화)
geometry ambiguity(기하학적 모호성) 문제를 완화하고, 새로운 신원의 헤드 구조를 추정된 기하학적 사전 지식에 정렬하여 view direction에 대한 견고성(robustness)을 높인다.geometry degradation [31]이나 불안정성 [9]을 보일 수 있다. 이는 특히 훈련 데이터가 적을 때 심화된다.estimated monocular depth map 와 normal 를 사용하여 렌더링된 깊이 맵 와 표면 법선 에 대한 정규화 손실을 추가한다.3D Talking Head Synthesis
Few-shot 3D Head Reconstruction
이러한 배경 속에서 InsTaG는 3DGS를 사용하여 경량 모델을 구축하고, 얼굴(face)과 입안(inside-mouth) 부분을 분리하여 모델링하는 전략(TalkingGaussian)을 채택하여 복잡한 얼굴 및 입 움직임을 정교하게 표현한다.
Structure Field:
Motion Field:
설정된 텍스트의 수식 (2)는 이 Motion Field가 변형 를 예측하는 방식을 나타낸다:
(변형, deformation):
(뉴럴 필드, neural field):
(프리미티브 중심, primitive center):
(조건 피처 세트, condition feature set):
(다층 퍼셉트론, Multi-Layer Perceptron):
(트라이-플레인 해시 인코더, tri-plane hash encoder):
region attention (RA) module이 포함되어 공간 관계를 효과적으로 저장하고 활용한다.Efficient region-aware neural radiance fields for high-fidelity talking portrait synthesis 논문에 제시된 방법으로, tri-plaen hash encoder가 눈, 코, 입 등의 얼굴 부위에 따라 개별적인 어텐션을 할 수 있도록 한다.(연결, concatenation):
H(μ)에 의해 인코딩된 공간 피처와 C에 포함된 조건 피처(오디오, 상안면 표현)를 결합(concatenation)하는 연산을 의미한다.렌더링 과정에서의 활용:
렌더링 단계에서는 이 Motion Field가 오디오 와 상안면 표현 등의 입력에 따라 Gaussian primitive 를 변형시킨다. 얼굴(face)과 입 안쪽(inside-mouth) 브랜치에서 각각 변형이 이루어지며, 최종적으로 두 브랜치의 결과가 결합되어 완성된 3D 토킹 헤드 이미지가 렌더링된다. 이를 통해 음성에 정확히 동기화되고 개인화된 사실적인 얼굴 움직임을 표현할 수 있다.


InsTaG는 짧은 영상 데이터만으로 개인화된 3D 토킹 헤드를 빠르게 학습하기 위해 "Identity-Free Pre-training (정체성 비의존적 사전 학습)" 전략을 도입한다. 이 전략은 개인화된 오디오-모션 매핑을 처음부터 학습하기 위한 데이터 부족 문제를 해결하고, 여러 인물의 공통된 모션 지식을 효과적으로 추출하는 데 중점을 둔다.
배경 및 동기:
전략:
Universal Motion Field (UMF):
Personalized Fields (개인화 필드):
Negative Contrast Loss (NCLoss):
InsTaG는 이러한 Identity-Free Pre-training을 통해 소량의 데이터로도 고품질의 개인화된 3D 토킹 헤드를 빠르게 학습할 수 있는 기반을 마련한다.

Motion-Aligned Adaptation은 InsTaG의 핵심 전략 중 하나로, 사전 학습된 Universal Motion Field (UMF)를 활용하여 새로운 인물의 3D Talking Head를 빠르고 고품질로 학습하는 방법을 다룬다. 특히, 이 전략은 3D Gaussian Splatting (3DGS) 기반 합성기가 변형을 직접 사용하여 렌더링하는 방식의 특징을 활용하여, 사전 학습된 모션을 새로운 인물의 머리에 정밀하게 정렬하는 데 초점을 맞추고 있다.
Motion Aligner (모션 정렬기)
Motion Aligner를 도입하여 이러한 불일치를 조정한다.intra-alignment를 달성하는 것이다.Face-Mouth Hook

배경 및 문제점:
Face Branch Output ():
Hook Feature () 추출:
Inside-Mouth Branch에서의 Hook 적용:
효과:
Geometry Prior Regularizer (기하학적 사전 정규화)
이 세 가지 전략을 통합함으로써, InsTaG는 몇 초 길이의 짧은 비디오만으로도 높은 충실도와 개인화된 3D Talking Head를 빠르게 학습할 수 있게 된다.
Photometric Loss ():
Pre-training (사전 학습):
Adaptation (적응 학습):
최적화 상세:
Identity-Free Pre-training 전략을 통해 Universal Motion Field (UMF)에 저장된다.Identity-Free Pre-training 단계에서 Universal Motion Field (UMF)를 학습하는 데 사용된다.UMF를 바탕으로, 새로운 인물(unseen new identity)의 개인화된 3D 토킹 헤드를 빠르고 고품질로 학습(미세 조정/adapt)하기 위함이다. 이 단계에서 Motion-Aligned Adaptation 전략이 적용된다.Motion-Aligned Adaptation 단계에서 새로운 인물에 맞춰 모델을 미세 조정하는 데 사용된다.NVP [51]에서 가져온 보지 못한 영어 남성 오디오와 [19]에서 가져온 독일어 여성 오디오를 사용하여 모델의 교차 도메인 일반화 능력을 평가한다. 이 경우, 모델은 20초 학습 데이터로 훈련된 후 이 오디오에 맞춰 영상을 생성한다. (이때는 오디오만 입력으로 주어지고, 실제 얼굴 이미지 GT는 없다).요약:
| 데이터셋 유형 | 목적 | 인물 관계 | 출처 | 길이/구성 |
|---|---|---|---|---|
| 사전학습 | 범용 모션 지식 학습 | 적응/테스트 인물과 겹치지 않음 | [30], [59] | 5개 유명인 비디오, 각 5000 프레임 (약 3분 20초) |
| 적응 | 새로운 인물에 대한 개인화 모델 학습 | 사전 학습 인물과 다름, 테스트 인물과 같음 | [47], [59] | 4개 인물 비디오에서 추출한 5초, 10초, 20초 클립 |
| 테스트 | 학습된 인물의 성능 평가 (재구성/일반화) | 적응 인물과 같음, 모델이 보지 못한 프레임 | 적응 비디오의 나머지 부분, [51], [19] | 최소 12초 (self-reconstruction), 외부 오디오 (cross-domain) |

이 표는 다양한 적용 데이터 길이(5초, 10초, 20초)에 따른 여러 3D 토킹 헤드 합성 방법들의 성능을 정량적으로 비교한 결과이다.
결과 분석:

이 표(Table 3)는 20초의 훈련 데이터를 사용하여 교차 도메인(cross-domain) 환경에서 다양한 3D 토킹 헤드 합성 방법들의 성능을 비교한 결과이다. 특히, 훈련 데이터는 영어 여성 비디오에서 20초를 사용하여 각 모델을 훈련하고, 테스트 오디오는 영어 남성과 독일어 여성이라는 다른 특성을 가진 오디오를 사용하여 모델의 일반화 능력과 견고성을 평가한다.
교차 도메인 설정(Cross-domain Setting) 이해:
평가 지표:
각 방법론:
InsTaG (Ours)의 성능:
결론:

이 섹션은 InsTaG 방법론의 성능을 Diffusion Model (DDPM) 기반의 최신 기술과 비교하는 내용을 다루고 있다.
이러한 비교는 InsTaG가 특정 작업, 즉 "적은 데이터로 개인화된 3D Talking Head를 빠르고 사실적으로 학습하는 것"에 얼마나 효과적인지를 강조한다. DDPM은 일반적인 이미지 생성 능력은 뛰어나지만, 인물의 고유한 움직임과 외형을 고정된 3D 구조 안에서 정밀하게 제어하고 실시간으로 렌더링하는 데에는 InsTaG의 3D Gaussian Splatting (3DGS) 기반 접근 방식이 더 유리하다는 것을 시사한다. 이는 Radiance Fields나 3DGS와 같은 명시적/준명시적 3D 표현 방식이 동적 3D 아바타 생성에서 여전히 중요한 강점을 가지고 있음을 보여준다.
DDPM은 데이터 분포를 학습하여 새로운 데이터를 생성하는 데 탁월하며, 일반적인 이미지/비디오 생성 태스크에서는 인상적인 결과를 보여준다. 그러나 이 논문의 Talking Head 합성 태스크는 단순히 그럴듯한 이미지를 생성하는 것을 넘어, 특정 인물의 고유한 특성(Personalization), 오디오와의 정확한 립싱크(Lip-synchronization), 3D 일관성(3D consistency), 그리고 실시간 작동(Real-time inference)을 요구한다. DDPM이 이러한 미세하고 제어 가능한 동적 특성을 기존 아키텍처로 직접적으로 모델링하기에는 한계가 있음을 보여주는 결과이다. 반면, InsTaG는 3DGS와 보편적인 모션 프라이어(Universal Motion Prior)를 활용하여 이러한 제어 가능성과 효율성을 달성하고자 하였다.


이 섹션은 InsTaG 모델이 극단적인(extreme unseen) 시야각에서 학습된 3D 헤드를 어떻게 렌더링하는지를 시각적으로 보여주는 추가 실험 결과이다.
이러한 결과는 InsTaG가 최소한의 학습 데이터만으로도 고품질의 3D 대화형 헤드를 생성할 수 있으며, 특히 3D 형상(geometry) 보존 능력이 뛰어나다는 것을 증명한다. 제한된 데이터로 학습하는 상황에서 발생하는 시야각 외삽(extrapolation) 문제에 대해 InsTaG가 효과적인 해결책을 제시하고 있음을 보여주는 대목이다.

해당 표는 InsTaG 프레임워크를 구성하는 핵심 전략 및 모듈 각각의 기여도를 정량적으로 평가하기 위한 어블레이션 연구(Ablation Study) 결과이다. 각 구성 요소가 최종 성능에 미치는 영향을 파악하기 위해, 특정 구성 요소를 제외하거나 추가했을 때의 성능 변화를 보여준다. 실험은 5초 학습 데이터 환경에서의 자기 재구성(self-reconstruction) 설정을 기반으로 한다.
PField (Personalized Field)
Identity-Free Pre-training 전략의 핵심 요소이다. 여러 다른 사람의 영상 데이터로 사전 학습할 때 발생하는 '신원 충돌(identity-conflict)' 문제를 해결하기 위해 도입되었다. Universal Motion Field(UMF)가 보편적인 모션 지식(universal motion prior)을 학습하는 동안, 각 학습 영상에 특화된 신원 정보와 개별화된 모션(personalized motion)은 이 Personalized Field에 임시로 저장되어 UMF에 영향을 주지 않도록 한다.PField가 없으면(첫 번째 줄), 사전 학습이 신원 충돌 문제로 인해 효과적으로 이루어지지 못하여 Sync-C 점수(오디오-립싱크 일치도)가 2.019로 매우 낮게 나타난다. PField를 적용하면(✓ 표시된 두 번째 줄부터) Sync-C가 4.816으로 크게 상승하여, 사전 학습의 효과를 가능하게 하고 모션 학습에 중요한 기여를 함을 보여준다.NCLoss (Negative Contrast Loss)
Identity-Free Pre-training 전략의 두 번째 핵심 요소이다. PField가 각 신원의 개별화된 모션을 저장하는 역할을 하지만, 어떤 모션이 '개별화된' 것이고 어떤 모션이 '보편적인' 것인지 명확히 분리하기 어렵다. NCLoss는 서로 다른 Personalized Field의 μ-변형(deformation) 쌍을 대조하여, 학습된 개별화된 모션들이 서로 다양하도록 장려한다. 이를 통해 불필요하게 보편적 모션 필드에 개별화된 모션이 저장되는 것을 방지하고, 보편적 모션 지식 수집을 극대화한다.PField만 적용했을 때(두 번째 줄)보다 NCLoss를 추가했을 때(세 번째 줄), Sync-C 점수가 4.816에서 5.124로 더욱 상승한다. 이는 NCLoss가 개별화된 모션과 보편적 모션의 효과적인 분리를 촉진하고, 립싱크 정확도 향상에 기여함을 의미한다.Aligner (Motion Aligner)
Motion-Aligned Adaptation 전략의 핵심 요소이다. 사전 학습된 UMF는 보편적인 모션 지식을 가지고 있지만, 새로 학습할 대상(new identity)의 얼굴 구조는 다양하기 때문에 UMF의 모션이 모든 신원에 완벽하게 들어맞지 않을 수 있다. Motion Aligner는 대상의 얼굴 구조와 UMF의 암묵적인 구조 간의 편향을 조정하기 위한 좌표 오프셋()과, 모션의 스케일 차이를 조정하기 위한 스케일링 팩터()를 학습한다.PField와 NCLoss만 적용했을 때(세 번째 줄)보다 Aligner를 추가했을 때(네 번째 줄), PSNR은 28.59에서 28.69로, Sync-C는 5.124에서 5.233로 개선된다. 이는 Aligner가 사전 학습된 지식을 새로운 신원에 효과적으로 정렬하여 이미지 품질과 립싱크 정확도를 높이는 데 도움을 준다는 것을 보여준다.Hook (Face-Mouth Hook)
Motion-Aligned Adaptation 전략의 또 다른 핵심 요소이다. 이 논문은 얼굴(face)과 입 안(inside mouth) 모션을 두 개의 분리된 브랜치로 모델링하는 Face-Mouth Decomposition 기법을 사용한다. 그러나 데이터가 적은 상황에서는 이 두 부분이 조화롭게 움직이는 것을 학습하지 못해 불일치(misalignment)가 발생할 수 있다. Face-Mouth Hook은 얼굴 브랜치에서 예측된 얼굴 모션(특히 입술 모션)을 입 안 브랜치의 모션 학습에 가이드로 제공하여, 두 브랜치 간의 상호 정렬을 강화한다.PField와 NCLoss에 Hook만 추가했을 때(다섯 번째 줄) LMD는 3.223에서 3.257로 약간 증가했지만, PSNR은 28.59에서 28.66으로 개선되었다. Aligner와 Hook을 모두 적용했을 때(PField, NCLoss, Aligner, Hook 모두 ✓인 마지막 줄) PSNR은 28.86, LPIPS는 0.039, LMD는 3.167, Sync-C는 5.318로 모든 지표에서 가장 우수한 성능을 보인다. 이는 Hook이 얼굴-입 불일치 문제를 해결하여 시각적 품질과 동적 품질을 모두 향상시키는 데 기여함을 의미한다. 특히, Aligner와 Hook이 상호 보완적으로 작동하여 전반적인 성능을 극대화함을 알 수 있다.