전체가 아닌 일부만 파인튜닝하는 이유는 파인튜닝하면서 기존의 능력을 잊어버리는 catastropic forgetting 방지하기 위함
멋진 말로 base 모델의 motion prior를 유지하면서 도메인 adaptation
motion prior를 담당하는 temporal layer를 freezing
파인튜닝 모델 : Image-Context projector, Spatial Layers, Temporal Layers
Detail Injection and Propagation Decoding
입력 이미지 정보를 디코더에 주입하여 디테일을 보완하는 디코더 제안
Dual reference based 3D deocder
dual-reference : 첫 프레임, 마지막 프레임
P3D : Pseudo-3D, temporal 정보 추가
베이스 모델의 디코더는 T2I의 단순 이미지 생성
HAR(Hybrid Attention Residual Learning mechanism)
F: 이미지 feature
Sketch-based Controllable Generation
유저의 사용성을 높이기 위해 스케치 조건 추가
ControlNet처럼 학습된 모델에 스케치 조건 모델 학습
스케치 조건 모델을 사용하지 않어도 됨
스케치 조건 모델은 프레임 별 독립적으로 학습
모든 프레임마다 스케치 조건 없어도 됨 (sparse sketch ✅)
Experiments
DynamiCrafter의 512x320을 베이스 모델로 사용
학습 하이퍼파라미터
비디오 생성 모델 : 50K steps, lr=1×10−5, batch size 32
디코더 : 60K steps, lr=4.5×10−6, batch size 16
스케치 조건 모델: 50K steps, lr=5×10−5, batch size 32
(Reviewer's 💡) 정량적 결과는 생략하고 정성적 결과만 보겠습니다!
Application
animation interpolation
sktech interpoation
colorization
Ablation study
Rectification Learning
1. base 모델 : 애니메이션 도메인 생성 x
2. 모든 레이어ICP + UNet(spatial+temporal) 파인튜닝 : 움직임이 덜 자연스러움
3. temporal 레이어 사용하지 않고 ICP + UNet 파인튜닝 : 움직임이 자연스럽지 않음
4. (Ours) temporal 레이어를 사용하되 학습시키지 않고 ICP + UNet spatial 파인튜닝 : 가장 애니메이션 도메인이면서, 움직임이 자연스러움
5. ICP만 파인튜닝 : 생성 퀄리티 낮음
Dual reference based 3D decoder
요소 설명
P3D : temporal 정보 반영
HAR : 첫프레임, 마지막 프레임 정보 사용
저자가 제안한 디코더가 디테일을 상당히 보완
Sketch guidance
요소 설명
ZeroGate : frame-dependent sketch 조건 모델
(Ours)FrameIn.Enc. : frame-independent sketch 조건 모델
w/o sketch : 스케치 조건 사용하지 않음
스케치 조건을 사용하지 않으면 첫 프레임과 마지막 프레임과 유사한 interpolation만 가능
ZeroGate는 스케치 조건이 없는 프레임을 잘 생성하지 못함
제안한 frame에 독립적으로 학습된 sketch 조건 모델이 활용도가 높음
Limitation
콘텐츠 잘 파악하지 못함, 텍스트 반영 잘 되지 않음
(Reviewer's 💡) 데이터셋 텍스트 만들 때 이미지 캡셔닝 모델 써서 motion을 잘 표현했을지 의문...
Reviewer's Comments 💡
파인튜닝을 위한 데이터 구축 과정을 세세하게 설명해서 좋음, but 데이터 공개하지 않아 아쉬움. 아마 저작권 문제 있지 않을까...?
디테일 뭉게지는 이슈를 기존에는 주로 Super Resolution으로 해결하는데, 이 논문에서는 태스크에 맞게 consistency를 더 잘 유지하면서 디테일을 개선하는 방법으로 디코더 구조를 제안하고 학습하는 게 좋아보임
실제 데모 테스트해봤을 때 텍스트 반영은 거의 잘 되지 않고, 학습할 때 프롬프트 개선하면 성능이 개선될 것이라 생각됨