Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
예전부터 이런 모델이 나왔으면 좋겠다 싶었는데 나왔다. Transformer + diffusion이 한번에 하나의 모델이 되어 이미지와 캡션(혹은 인식이라고도 할 수 있겠다.)이 한 번에 가능한 모델! latent vecter에 transformer로 이미지 텍스트 간의 연관성을 학습하는 방식이다. 어떻게 보면 비효율적이고 아직 완전하진 않지만 그래도 좋은 시도라고 생각한다. LLM처럼 규모가 점점커지면 지금 문제되는 것들이 문제되지 않을지도.
A Mean Field Ansatz for Zero-Shot Weight Transfer
small model에서 large model로 trained weights를 transfer하는 모델. 신기한데. zero-shot으로 한다고 한다. 화웨이에서 나온 논문이다. 물리학?쪽에서 쓰는 ansatz를 오랜만에 보니 반갑다. 역시 물리나 수학과 인공지능은 뗄수 없는 관계..