written by Yixin Liu, Kai Zhang, Yuan Li, Zhiling Yan, Chujie Gao, Ruoxi Chen, Zhengqing Yuan, Yue Huang, Hanchi Sun, Jianfeng Gao, Lifang He, Lichao Sun
Warning: This is not an official technical report from OpenAI
2024년 발표된 OpenAI의 Sora는 text-to-video generative AI model이다. Sora는 텍스트 프롬프트로부터 realistic or imaginative한 약 1분의 영상들을 제작할 수 있다.
본 논문에서는 이러한 Sora의 background, technology, application 분야, 한계와 opportunities에 대한 discussion을 할 것이다.
diffusion transformer를 사용하여 LLMs(Large Language Models)와 같이 parse text and comprehend complex user instruction 가능
space time latent patches 사용하여 video 생성이 computationally efficient하도록 함
text-to-video 생성은 diffusion transformer model을 사용하여 frame filled with visual noise에서 noise를 반복적으로 제거 + 텍스트에 주어진 것에 따른 디테일들 추가를 통해 진행
framework of Sora
limitations
윤리적 관련 문제를 너무 나이브하게 생각하는 것 아닌지?