Sora는 ChatGPT 이후로 나온 가장 충격적인 성능의 AI 모델이 아닐까 싶다. Machine Learning 분야에서 curse of dimensionality 를 해결하는 것은 그리 간단한 일이 아니기 때문에, 나는 Video Generation 이 2D image diffusion 만큼의 성능을 내는 것은 시간이 필요한 일이라고 생각했었다.
그런 내 생각을 무참히 부정해버리는 연구가 2024년 초부터 등장한다.
당장 1 frame 간격의 consistency 도 유지하기 힘들어하는 기존 video generation 결과에 비해, 정말 월등한 생성 성능이다.
3D Reconstruction 이 연구 분야인 나는, sora 가 과연 geometric consistency 도 이해하면서 장면을 생성하고 있을지, 아니면 아직은 content 에 대한 consistency 만 유지하고 있을지 궁금해졌다. 따라서 다음과 같은 가정을 통해서 가설을 검정하고, 이에 대한 내 생각을 남기려한다.
즉 나는 real world capture 로부터 Novel View Synthesis 하는 일련의 과정,
을 통해 sora result video 를 3D로 복원해보고자 한다.
Sora 의 공개된 example results 중, 다음 네 개의 영상을 후보로 선정하였다.
다른 scene 은 video 안에서 dynamic object 가 많아서 reconstruction 이 힘들 것이라고 판단했다.
동영상을 다운 받은 뒤 frame 을 sampling 하여 COLMAP 을 통한 SfM 을 진행했다. 굳이 NeRF reconstruction 까지 가지 않더라도, 이 단계에서 3D stereo vision 이 상정하는 3D geometry 와 sora 가 어느 정도의 consesus 가 있는지 알 수 있다고 생각했다.
(cf. COLMAP은 edge feature 등의 image feature 를 찾고, feature matching 후 이를 통해 bundle adjustment 하여 각 frame 이 공간 상의 어떤 위치에서 찍혔는지 복원하는 기술이다. )
COLMAP 결과는 다음과 같다.
1. Santorini scene
2. Museum scene
나머지 두 영상에 대해서도 얼추 camera pose alignment 가 잘 동작하였다.
COLMAP 결과로 미루어보아, sora 는 아직 3D geometry 구조를 완벽하게 이해하고 있지는 않는 것 같다. 단지 content 의 consistency 를 유지하기 위해 이미 그려놓은 풍경을 한 방향으로 늘리는 느낌으로 결과물을 생성하며 이는 특히 museum 영상에서 이것이 두드러지게 나타난다. (Rectangular space 로 reconstruction 되지 않는 모습)
COLMAP 결과를 바탕으로 NeRF reconstruction 을 진행했으며, 결과는 다음과 같다. 전체적으로 view 가 있는 부분에 대해서는 NeRF 로 reconstruction 이 잘되는 모습을 보여준다.
마찬가지로 COLMAP sparse point cloud 를 바탕으로 3D reconstruction 을 진행했다.
따라서 이 결과가 COLMAP / NeRF 만으로는 잘 보이지 않는 sora 의 3D geometry 이해 능력을 보여줄 것이라고 생각했다.
Qualitative quality 자체는 NeRF 와 크게 차이나는 모습은 아니지만, geometry 가 많이 어긋난 santorini scene 에서 차이를 많이 보여준다. 그 외에도 splats 으로 이루어진 scene 이 가까이 다가갔을 때 개별적인 splat 을 볼 수 있었다.
공개된 첫 세대 sora 가 벌써 이만큼의 성능을 보여준다면, 한두 세대 뒤의 모델로는 scene 에 대한 동영상을 생성하고, 이를 Neural Rendering 기술을 통해 복원하여 게임 등에 사용할 수 있는 환경이 도래할 것이라고 생각한다. 연구자라는 직업을 달고 있는 입장에서도 결국 빅테크의 팔로워에 지나지 않을 뿐이라 조금은 씁쓸하지만, OpenAI 의 이 엄청난 행보를 계속 예의주시하게 될 것 같다.