- 분류: Video Generation, Multi-modal
- 저자: Zhe Kong, Feng Gao, Yong Zhang†, Zhuoliang Kang, Xiaoming Wei, Xunliang Cai, Guanying Chen, Wenhan Luo†
- 소속: Shenzhen Campus of Sun Yat-sen University, Meituan, Division of AMC and Department of ECE, HKUST
- paper: https://arxiv.org/pdf/2505.22647v1
키워드: Audio-driven animation, multi-person video generation, video diffusion model, L-RoPE, instruction-following capability
| 프롬프트와 멀티 스트림 음성 입력으로 다중 인물의 대화 영상 생성 |
|---|
![]() |
기존의 오디오 기반 휴먼 애니메이션 기술은 주로 한 사람의 얼굴(talking head)이나 몸체(talking body) 애니메이션에 집중되어 있었으며, 여러 명이 참여하는 대화 영상 생성에는 한계가 있었다. 특히 다중 오디오 입력을 처리하지 못하거나, 오디오와 사람 간의 매핑이 부정확하여 프롬프트에 따른 복잡한 동작 지시를 제대로 따르지 못하는 문제가 있었다. 이 연구는 이러한 한계를 극복하고자 다중 인물의 대화 영상을 오디오로부터 생성하는 새로운 과제를 제안한다.
본 연구는 MultiTalk이라는 새로운 프레임워크를 제안하여 오디오 기반 다중 인물 대화 영상 생성 문제를 해결한다.

1. 약 2k 시간 분량의 단일 인물 얼굴/상체 영상 데이터
2. 100시간 분량의 2인 대화 영상 데이터
(+) 20만 개의 다중 이벤트 및 인간-객체 상호작용 영상 클립 사용

| Parameter | Value |
|---|---|
| learning rate | 2e-5 |
| optimizer | AdamW |
| (stage 1) batch size | 64 |
| (stage 2) batch size | 32 |
정량적 평가

* 기존 방법들(AniPortrait, VExpress, Echomimic 등) 대비 HDTF, CelebV-HQ, EMTD 데이터셋에서 우수한 Sync-C, Sync-D, FID, E-FID, FVD 성능 달성
* 다중 인물 데이터셋(MTHM)에서 최초로 평가 진행
정성적 평가
Ablation Study
