written by Yuwei Guo, Ceyuan Yang, Anyi Rao, Zhengyang Liang, Yaohui Wang, Yu Qiao, Maneesh Agrawala, Duhua Lin, and Bo Dai
T2I(Text-to-Image) diffusion models๋ ์ํฐ์คํธ์ ์๋ง์ถ์ด๋ค์ด ๋น์ฃผ์ผ ์ฝํ ํธ๋ฅผ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ์ฌ ์์ฑํ๋ ๊ฒ์ ๋ํด ๋ง์ ์ํฅ์ ์ฃผ์์
์ง๊ธ๊น์ง ๋ค์ํ ๋ชจ๋ธ๋ค์ด ๊ฐ๋ฐ๋์์ง๋ง, ๊ทธ๋ค์ ์ ์ ์ด๋ฏธ์ง๋ง ์์ฑํด๋ด๊ธฐ ๋๋ฌธ์ ์ ๋๋ฉ์ด์ ๊ณผ ๊ฐ์ ๋์ ์ฝํ ์ธ ์์ฑ์๋ ์ ํฉํ์ง ์๊ณ ๋ํ์ฌ ๋น์ฉ๊ณผ ๊ณ์ฐ์ ๋นํจ์จ๋ก ์ธํด ์ค์ฉ์ ์ด์ง ์์
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ AnimateDiff๋ ๊ธฐ์กด์ ๊ณ ํ์ง ๊ฐ์ธํ๋ T2I ๋ชจ๋ธ์ ์ ๋๋ฉ์ด์ ์์ฑ๊ธฐ๋ก ์ง์ ๋ณํ ๊ฐ๋ฅํจ
ํด๋น ๋ชจ๋ธ์ ํต์ฌ์ ๋น๋์ค ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ํฉ๋ฆฌ์ ์ธ ๋ชจ์ ์ ํ์ตํ๋ ํ๋ฌ๊ทธ ์ค ํ๋ ์ด ๋ชจ์ ๋ชจ๋์ ํ๋ จํ๋ ์ ๊ทผ๋ฒ
AnimateDiff์ ํ๋ จ ๋จ๊ณ
์ด๋ฌํ ์ ๊ทผ์ ํตํด ๋ณธ ๋ ผ๋ฌธ์์๋,
์ ๋ํ์ฌ ์ด์ผ๊ธฐ ํจ
Text-to-image ์์ฑ์ ์ํ diffusion models๋ ์ต๊ทผ ๋ง์ ์ฃผ๋ชฉ์ ๋ฐ๊ณ ์์
์ฌ์ ํ๋ จ๋ T2I๋ก ์ฐฝ์ ์ฉ์ดํ๊ฒ ํ๊ธฐ ์ํด ๋ง์ ์์ ์ด ํจ์จ์ ์ธ ๋ชจ๋ธ ๊ฐ์ธํ์ ์ด์ ๋ง์ถ๊ณ ์์
๊ธฐ์กด ์์ ๋ง์ง ์์
๋ณธ ๋ ผ๋ฌธ์์ ์๊ฐํ๋ AnimateDiff์ base T2I model์ธ Stable Diffusion๊ณผ LoRA์ ๋ํ์ฌ ์๊ฐํจ
open-sourced, well-developted community with many high-quality personalized T2I models for evaluation์ ์ด์ ๋ก base T2I ๋ชจ๋ธ๋ก ์ ์
forward diffusion ์
denoising network
MSE loss ํตํด ๊ณ์ฐ๋จ
approach that accelerates the fine-turning of large models and is first proposed for language model adaption
model์ parameters๋ฅผ retrainingํ๋ ๊ฒ ๋์ pairs of rank-decomposition matrices ๋ํ์ฌ optimizes only these newly introduced weightsํจ
๊ธฐ์กด์ weights๋ frozen์ํค๊ณ ํ์ต๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ํํจ์ผ๋ก์จ catastrophic forgetting ๋ฐ์ ํ๋ฅ ์ ๋ฎ์ถค
LoRA๋ ์ค์ง attention layers์๋ง ์ ์ฉ๋จ
learning transferable motion priors from video data, which can be applied to pesonalized T2I without specific tuning
inference time์ our motion module(ํธ๋ฅธ์)๊ณผ optional MotionLoRA(์ด๋ก์)๋ directly personalized T2I์ insert๋จ. ์ด๋ฅผ ํตํด animation generator(์์ฐจ์ ์ผ๋ก ๋
ธ์ด์ฆ๋ฅผ ์์ฐ์ผ๋ก์จ ์ ๋๋ฉ์ด์
์์ฑํ๋ ์์ฑ์)๋ฅผ ๊ตฌ์ฑํจ
AnimateDiff๋ฅผ ๊ตฌ์ฑํ๋ ์ธ ๊ฐ์ง ์์์ธ domain adapter, motion module, MotionLoRA๋ฅผ ํ์ต์ํด์ผ๋ก์จ ์์ ๊ตฌ์กฐ๋๋ฅผ achieveํ ์ ์์์
๋น๋์ค ํ๋ จ ๋ฐ์ดํฐ์ ์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ๋นํด ์๊ฐ์ ํ์ง ๋ฎ์ ๋ชจ์ ๋ธ๋ฌ, compression artifacts. watermarks ๋ฑ์ ๋ฌธ์ ๋ฐ์ ๊ฐ๋ฅํจ. ์ด๋ฌํ ํ์ง ํ๋ฆฌํฐ ๋ฎ์์ ์ ๋๋ฉ์ด์ ์์ฑ ํ์ดํ๋ผ์ธ์ ๋ถ์ ์ ์ํฅ ๋ฏธ์น ์ ์์
ํ๋ฆฌํฐ์ ์ฐจ์ด๋ฅผ ํ์ตํ์ง ์๊ณ ๊ธฐ์กด T2I์ knowledge๋ฅผ ๋ณด์กดํ๊ธฐ ์ํ์ฌ fit the domain information to a separate network๋ฅผ ์ค์ํจ. ์ถ๋ก ์ ๋๋ฉ์ธ ์ด๋ํฐ ์ ๊ฑฐํจ์ผ๋ก์จ domain gap์ผ๋ก ์ธํ ๋ถ์ ์ ์ํฅ์ ์ค์ผ ์ ์์์
domain adapter layer๋ LoRA๋ฅผ ์ฌ์ฉํ์ฌ ๊ตฌํ๋๊ณ ๊ธฐ๋ณธ T2I์ self-/cross-attention layer์ ์ฝ์
ํจ
๋คํธ์ํฌ ํ์ฅ์ ์ด๋ฏธ์ง ๋ ์ด์ด๋ฅผ ๋น๋์ค ํ๋ ์์ ๋
๋ฆฝ์ ์ผ๋ก ์ ์ฉํ์ฌ ๊ธฐ์กด์ ๊ณ ํ์ง ์ฝํ
์ธ ์ ์ง
๋ชจ๋ ์ค๊ณ๋ ์ต๊ทผ ๋น๋์ค ์์ฑ ์์
์์ ํ๊ตฌ๋ ์ฌ๋ฌ ๋์์ธ ๊ธฐ๋ฐ์ผ๋ก transformer architecture ์ฌ์ฉํ๊ณ , ์๊ฐ ์ถ์ ๋ง๊ฒ ์ฝ๊ฐ์ ์์ ์ ํตํด time transformer๋ก ์ฐธ์กฐ
์ด๋ฅผ ํตํด ์๊ฐ์ ๋ด์ฉ์ ๋ณํ ํ์ตํ์ฌ ์ ๋๋ฉ์ด์ ํด๋ฆฝ์ ์ด๋ ์ญํ ๊ตฌ์ฑํ๋๋ก T2I model ํ์ฅ์ํด
pre-trained motion module์ ์ผ๋ฐ์ ์ธ ์ด๋ ์ฐ์ ์์๋ฅผ ์บก์ฒํ์ง๋ง, ์๋ก์ด ์ด๋ ํจํด์ ํจ๊ณผ์ ์ผ๋ก ์ ์ํด์ผ ํ ๋ ๋ฌธ์ ๋ฐ์
ํด๊ฒฐ ์ํ์ฌ ์ ์ ์์ ์ฐธ์กฐ ๋น๋์ค์ ํ๋ จ ๋ฐ๋ณต ํตํด ๋ชจ์ ๋ชจ๋์ ํน์ ํจ๊ณผ์ ๋ํด ๋ฏธ์ธ ์กฐ์ ํ ์ ์๋ ์์จ์ ์ธ ๋ฏธ์ธ ์กฐ์ ์ ๊ทผ ๋ฐฉ๋ฒ์ธ MotionLoRA๋ฅผ ์ฌ์ฉํจ
MotionLoRA๋ LoRA ๋ ์ด์ด๋ฅผ ํ์ฉํ์ฌ ์๋ก์ด ์ด๋ ํจํด์ ์ฐธ์กฐ ๋น๋์ค์์ ํ๋ จ๋๊ณ , ์ ์ ์์์ผ๋ก๋ ์ข์ ๊ฒฐ๊ณผ ์ป์ ์ ์์. ์ด๋ฌํ ๋ฎ์ ์์ ํน์ฑ์ ํ์ฉํ์ฌ ๊ฐ๋ณ์ ์ผ๋ก ํ๋ จ๋ ๋ชจ๋ธ์ ๊ฒฐํฉํ์ฌ ์ถ๋ก ์์ ๋ค์ํ ๋ชจ์ ํจ๊ณผ ๋ฌ์ฑ ๊ฐ๋ฅํจ
์ด๋ฅผ ํตํด ์ฌ์ฉ์๋ ๋น์ฉ ๋ถ๋ด ์์ด ๋ชจ์ ๋ชจ๋์ ์ํ๋ ํจ๊ณผ์ ๋ง๊ฒ ์กฐ์ ๊ฐ๋ฅํจ
training
domain adapter๋ train with original objective
motion module and MotinoLoRA, as part of an animation generator, use a similar objective with minor modifications to accommodate higher dimension video data
inference
์ถ๋ก ์ personalized T2I model์ ์ฒ์์ inflated๋๊ณ , motion module for general animation generation์ด injected๋จ.
์ ํ์ ์ผ๋ก MotinoLoRA๊ฐ personalized motion์ ์ฌ์ฉํ์ฌ ์ ๋๋ฉ์ด์
์ ์์ฑํจ
domain adapter์ ๊ฒฝ์ฐ, ๋จ์ํ ์ถ๋ก ๋ ๋ฒ๋ฆฌ๋ ๋์ ๊ฐ์ธํ๋ T2I๋ชจ๋ธ์ ์ฃผ์
ํ๊ณ ์ค์ผ์ผ๋ฌ alpha๋ฅผ ๋ณ๊ฒฝํ์ฌ ๊ธฐ์ฌ ์กฐ์ ๊ฐ๋ฅํจ
user study์์ ๋ณธ ๋
ผ๋ฌธ์์ ์ ์ํ ๋ชจ๋ธ์ด ๋์ ๊ฐ์ ๋ณด์ฌ์ค์ ์ ์ ์์
CLIP metric์์ ๋ํ ๋์ ๊ฐ์ ๊ฐ์ง์ ์ ์ ์์
๋ณธ ๋ ผ๋ฌธ์์๋ quality๋ฅผ ํฌ์ํ์ง ์๊ณ pre-trained domain knowledge๋ฅผ ์์ง ์๊ณ ๋ ํ ๋ฒ์ ๊ฐ์ธํ๋ T2I ๋ชจ๋ธ์ ์ ๋๋ฉ์ด์ ์์ฑ์ฉ์ผ๋ก ์ง์ ๋ณํํ๋ Animatediff๋ฅผ ์ ์ํจ
์ด๋ฅผ ์ํด ์๋ฏธ ์๋ ์ด๋ ์ฐ์ ์์๋ฅผ ํ์ตํ๊ณ ์๊ฐ์ ํ์ง ์ ํ๋ฅผ ์ํํ๋ฉฐ MotionLoRA๋ผ๋ ๊ฒฝ๋ ๋ฏธ์ธ ์กฐ์ ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ ์ด๋ ๊ฐ์ธํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ ์ธ ๊ฐ์ง ๊ตฌ์ฑ ์์ ๋ชจ๋์ ์ค๊ณํจ
AnimateDiff๋ ๊ธฐ์กด์ ๋ด์ฉ ์ ์ด ์ ๊ทผ ๋ฐฉ์๊ณผ์ ํธํ์ฑ์ ๋ณด์ฌ ์ถ๊ฐ์ ์ธ ํ๋ จ ๋น์ฉ ์์ด ์ ์ด ๊ฐ๋ฅํ ์์ฑ์ ๊ฐ๋ฅํ๊ฒ ํจ
AnimateDiff๋ ๊ฐ์ธํ๋ ์ ๋๋ฉ์ด์ ์ ์ํ ํจ๊ณผ์ ์ธ ๊ธฐ์ค์ ์ ๊ณตํ๋ฉฐ ๋ค์ํ ์์ฉ๋ถ์ผ์ ๋ํ ์ ์ฌ๋ ฅ์ ์ง๋๊ณ ์์