유니티에서 자동으로 가상환경을 만들어주는 방법을 찾아보다 Blockade Lab Skybox와 Genesis를 활용하여 프롬프트를 통해 가상환경을 만들어주는 방법을 찾게되었다.
링크 https://skybox.blockadelabs.com/
(GENESIS 패키지 사용하여 유니티에 적용)
링크 : https://github.com/julienkay/com.doji.genesis
상당히 높은 성능으로 뽑혀서 놀랐다
다음으로 이 Blockade Labs는 어떤 모델을 사용하여 만들었는지 궁금하여 더 조사하게 되었다.
ldm3d 논문을 찾아보았을때 Blockade Lab과 협업했다는 것을 알 수 있었다. 또한 논문에서 파이프라인에서 유사한 렌더링 엔진으로도 projection할 수 있다고 함.
LDM3D의 잠재력을 보여주기 위해 생성된 2D RGB 이미지와 깊이 맵을 사용하여 TouchDesigner로 360° projection을 계산하는 애플리케이션인 DepthFusion을 개발했다. 사용자가 이전에는 불가능했던 방식으로 텍스트 프롬프트를 경험할 수 있는 몰입감 있고 매력적인 360° view를 생성함 이 방식은 TouchDesigner 플랫폼에 국한되지 않으며 파이프라인에서 RGB 공간과 깊이 색 공간을 활용할 수 있는 유사한 렌더링 엔진 및 소프트웨어 내에서도 복제될 수 있다.
내 생각은 논문에서는 ldm3d 를 제작하고 TouchDesigner라는 그래픽 툴로 DepthFusion이란걸 개발했는데 웹에서 보여주기위해서 Blocakde Lab에서 따로 또 만든거같다.
Stable Diffusion v1.4를 기반으로 하며 Latent Diffusion Model for 3D (LDM3D)를 제안한다. 원래 모델과 달리 LDM3D는 주어진 텍스트 프롬프트에서 이미지와 깊이 맵 데이터를 모두 생성할 수 있다. 이를 통해 사용자는 텍스트 프롬프트의 완전한 RGBD 표현을 생성하여 몰입감 있는 360° view에 생명을 불어넣을 수 있다.
사용한 모델은 ldm3d-pano
https://huggingface.co/Intel/ldm3d-pano
ldm3d-pano 의 파인튜닝할떄쓴 데이터는 Text2Light를 사용하여 파라노마 이미지를 13852개의 훈련 샘플과 1606개의 검증 샘플을 포함하는 데이터 세트를 생성했습니다. 해당 샘플의 깊이 맵을 생성하기 위해 DPT-large를 사용 하고 캡션을 생성하기 위해 BLIP-2를 사용했습니다.
따라서 ldm3d-vr 논문에서는 ldm3d-pano + ldm3d-sr(스케일업해줌) 을 사용하여 만들어봐라 라고 제안합니다.
ldm3d-vr 논문의 요약은 다음과 같습니다. LDM3D-pano 및 LDM3D-SR을 포함하는 가상 현실 개발을 목표로 하는 확산 모델 제품군인 LDM3D-VR을 소개합니다. 이러한 모델을 사용하면 텍스트 프롬프트를 기반으로 파노라마 RGBD를 생성하고 저해상도 입력을 고해상도 RGBD로 각각 업스케일링할 수 있습니다. 우리의 모델은 파노라마/고해상도 RGB 이미지, 깊이 지도 및 캡션이 포함된 데이터 세트에서 기존의 사전 훈련된 모델을 통해 미세 조정되었습니다. 두 모델 모두 기존 관련 방법과 비교하여 평가됩니다.
output = pipe(
"realistic , high quality , interview room , office room”,
width=1024,
height=512,
guidance_scale=5.0,
num_inference_steps=50,
)
ldm3d-pano 문제점 : 해상도가 1024*512가 고정입니다. (변경 하면 이상하게나옴)
Blocakde Labs에서 생성된 파라노마 영상은 61443072 크기로 나와서 좋은 퀄리티의 이미지가 나오게 되는데. ldm3d-pano에서는 1024512가 최대 해상도 인것 같으므로 여기서 ldm3d-sr을 적용시킬려고 하였으나 huggingface 에서 제공한 모델이 오류가 발생하여 적용시키지 못했음.