NVP2(1) - Ideas Proposal on Sparse Positional Features

구명규·2023년 4월 9일
0

'23 Individual Research

목록 보기
11/19
post-thumbnail

  지난 4월 5일, 교수님과 미팅을 가졌고, Scalable Neural Video Representations with Learnable Positional Features (Subin, Sihyun, et al. NeurIPS 2022) 논문 전반에 대한 아이디어 제안과 실험 결과에 대해 발표드렸다. 그러고선 해당 모델의 사이즈에 대부분의 비중을 차지하고 있는 sparse positional features (3D latent codes)를 codec이 잘 압축하는 형태로 최적화해보는 것에 대한 아이디어를 받았고, 그에 관해 어떤 것들을 시도해볼 수 있을지 정리해보려 한다.


0. Remote Server

  우선 드디어 연구실 서버를 할당받았다. 그동안 부계정 돌려써가며 코랩으로 학습시킨다고 얼마나 고생했는지.. 근데 한 번도 원격 서버를 사용해본 적이 없어서 그 방법에 대해서도 공부해서 다음 글에서 정리해보도록 하겠다.


1. Sparse Positional Features Optimization

  본 논문에서는 3D와 2D latent grid에 대해 각각 HEVC, JPEG의 codec을 사용한다. 아직 codec에 대한 이론적인 원리를 정확히는 모르지만, 각 모델마다의 알고리즘과, 그 알고리즘을 사용했을 때, 더 효과적으로 압축이 될만한 데이터의 형태가 정해져 있을 터.

  이에, 3D sparse positional features 자체가 codec이 잘 압축하는 형태로 수정되거나, latent code에 특정 regularization을 부여한다면 모델의 압축성능을 더 끌어올릴 수 있을 것이다. + YUV space에서의 fitting도 고려해볼 수 있겠다.

\Rarr Codec의 원리와 그에 적합한 데이터의 형태를 공부하고, 해당 형태로 3D latent grid를 재설계해보기!


2. Codec Choice

  반대로, sparse positional features의 형태는 그대로 두고, 현재의 형태를 가장 잘 압축할 수 있는 codec를 탐색하는 방법도 생각해볼 수 있다. 이를 위해서는 여러 codec마다의 원리를 어느 정도 공부해볼 필요가 있어보인다(우선 공부 전에 실험부터 선행적으로 시도해볼 것). 논문에서 사용 중인 4K 비디오 전용의 HEVC 이외에 저화질 비디오 전용 codec이나 흑백 비디오 전용 codec 등을 시도해볼 수도 있을 듯.

\Rarr 현 3D latent grid에 적합한 새로운 codec 탐색하기!


3. Tucker Decomposition

  Over parametrized된 딥러닝 모델을 보다 compact하게 만들어 용량을 줄이는 방법으로 pruning과 함께 자주 사용되는 기법이 바로 tensor decomposition이다(Image나 video 형태의 dataset에 대해 latent feature만을 남겨두고 압축하기 위해서도 사용된다). 그 중 Tucker decomposition은 3D grid를 작은 3D grid 하나와 세 개의 2D projection으로 decompose하는 방법인데, 이를 다음과 같은 방법들로 사용해볼 수 있지 않을까?

  • 우선 codec 사용 없이 Tucker decomposition 만으로 압축률이 얼마나 변하는지 실험
  • 3D latent grid를 Tucker decomposition으로 후처리하여 각각의 3D grid, 2D projection을 codec에 입력하여 성능 측정
  • 마찬가지로 후처리하여 neural net initialize 후 학습 시작 (initialization 이후에는 decomposition 사용 X) 후 성능 측정

  하나씩 순서대로 진행해보도록 하자!

profile
K'AI'ST 학부생까지의 기록

0개의 댓글