- GRIN: GRadient-INformed MoE
Microsoft에서 새로운 MoE 모델을 내놓았다. 기존의 MoE는 각 expert를 학습할 때 딥러닝 방식을 사용하는게 일반적인데 해당 모델은 autoregressive language model을 사용한다고 한다. 다른 모델보다 적은 activated parameter로 더 좋은 성능을 보인다고 말한다. 깃헙은 여기서. 58페이지나 된다.
- Vista3D: Unravel the 3D Darkside of a Single Image
ECCV 2024논문. 많은 모델이 그러하듯 course와 fine으로 나눠 진행하는 방식. course에서는 geometry 정보를, fine에서는 Signed Distance Function (SDF)를 gaussian splatting으로 추출한다. 이 때 동시에 isosurface representation를 최적화 한다. 읽어볼만한 논문.
- OmniGen: Unified Image Generation
transformer 기반의 이미지 처리 논문. 근시일 내에 실시간으로 정교한 이미지 interaction이 쉽게 가능할 듯.
- Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think
zero-shot으로 depth와 normal을 추출하는 모델. 기존의 모델들을 잘 활용한 것 같다. 역시 ECCV2024
- ✨ OSV: One Step is Enough for High-Quality Image to Video Generation
consistency distillation with GAN training으로 inference의 속도와 안정성을 높인 비디오 생성 모델. 홍콩과기대, 홍콩대, tencent의 합작. ADD 모델의 DINO v2를 이용한 것을 포함해 기본적인 구조는 동일하나, 디코더 부분을 reshape 및 upsampling로 바꿨다. pretrined GAN모델들로 loss를 계산한다. 흥미로운 구조이다.
- ✨ Single-Layer Learnable Activation for Implicit Neural Representation (SL2A-INR)
Implicit neural representations의 구조에 대한 논문.
- ✨ Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion
관련된 레퍼가 아닌 다른 종류의 레퍼런스만으로 3D를 생성할 수 있는 모델. 대박. 논문에서 제시하는 meta-controlNet을 사용했다고 함. (a base ControlNet and an additional meta-controller라고 적혀있다.)
저자군도 보면 City University of Hong Kong, Shanghai AI Lab, CUHK, S-Lab, NTU 다 할법한 곳에서 했다 싶다.
요새 speech/audio 관련 논문이 정말 많이 나오는 것 같다. 키워드로도 보자면 autoregressive도 정말 많이 보인다.