가짜연구소 청강

Arsen·2022년 9월 14일
0

Unreal Engine

목록 보기
2/2
post-thumbnail

3D Vision에 대한 논문을 읽고 발표하시는 것을 청강하였다.
1. Kpconv : Flexible and deformable convolution for point clouds
2. CLIP-Mesh : Generating textured meshes from text using pretrained image-text models 에 대하여 발표해주셨다.

Kpconv : Flexible and deformable convolution for point clouds

ICCV 2019

Kpconv란 CNN을 3D에서 적용하기 위해 고안된 것이다.

  1. Pointwise CNN
  • Low flexibility
  • Normalization has
  1. SpiderCNN
  • filter가 inconsistent
  1. PCNN
    -not scalable

앞선 3가지 방법이 가진 단점을 극복하는것이 Kpconv

KPConv는 본래 Image convolution의 데이터가 날아가는것보다 데이터를 잘 보존한다(?)

Rigid KPConv
는 간단한 Image Classification같은 작업에 좋은 결과

Deformable KPConv 복잡한 segmentation과 같은 작업에 좋은 결과

역시 아직 배움이 부족해 많이 이해하지는 못했다. 그래도 설명을 잘해주셔서
개략적으로는 이해한것 같다. 나중에 다시 읽으면 도움 될 것 같은 논문인것 같다.

CLIP-Mesh : Generating textured meshes from text using pretrained image-text models

Point clouds, Voxel grids, Implicit function 이 보통 3D generation에 나온다.

3D generation의 이상적인 시나리오는 3D mesh기에 이를 연구한듯하다

dataset이 부족한것이 문제였고 Large scale model trained on clip image를 사용했다고 한다.

CLIP (Contrastive Language-Image Pre-Training)
400M(image, text) pairs dataset 수집
Text와 Image의 correct pair similarity가 높아지도록 contrastive learning을 수행한다.

DALL-E 2(unCLIP)
Dreamfields 구글이 발표한 논문으로 NeRF 기반으로 렌더링하고 Text와 맞도록 학습되는 모델인듯하다.

3D mesh, texture map, normal map을 만들고
3D mesh에 loop subdivision surface적용
이를통해 3D 메쉬에 알맞은 색을 입힐 수 있다.

자료를 따라 타이핑하다 놓친부분이 있어 다 따라가지는 못했다. 그래도 Unreal Engine 관련이라 관심있던 분야라 조금더 이해가잘된듯하다.

Dreamfield에 비해서 속도가 매우 빠른편이다.
Complex한 상황에서도 잘 적용된다.

결론 : text prompt만으로 3D object 생성이 가능, 다양한 application에서 활용 가능

profile
ML/AR/CV 공부

0개의 댓글